Семинар лаборатории LAMBDA «Оптимизация системы распределенного хранения данных»
На семинаре лаборатории LAMBDA выступил Гущин Михаил Иванович - аспирант МФТИ, исследователь-разработчик в ШАД.
Тема его доклада: Оптимизация системы распределенного хранения данных.
Аннотация.LHCb - это один из четырех главных экспериментов на Большом Адронном Коллайдере в ЦЕРН. Детекторы LHCb и моделирование физических процессов генерируют ежегодно 15000 PB необработанных данных. Обработанные данные хранятся в распределенной системе хранения на жестких дисках и магнитных лентах. Диски используются для хранения данных, которые физики используют для своих текущих исследований. Жесткие диски намного быстрее магнитных лент и значительно дороже их, в результате объем дискового пространства существенно ограничен. Поэтому очень важно определить какие файлы нужно держать на дисках, а какие хранить в виде архивов на магнитных лентах.Тема его доклада: Оптимизация системы распределенного хранения данных.
В этой работе мы представим систему управления дисковой памятью для LHCb на основе методов статистического анализа истории обращения к данным. Мы покажем как можно использовать алгоритмы машинного обучения для прогноза популярности файлов. Использую предсказанную популярность можно определить какие файлы можно удалить с диска. Мы используем алгоритмы регрессионного анализа и алгоритмы анализа временных рядов, чтобы определить оптимальное число копий файлов на диске. На основе предсказанной популярности файлов и оптимального числа копий мы минимизируем функцию потерь для определения оптимального распределения данных. Функция потерь выражает требования к распределению данных в системе хранения. Мы покажем как наша система позволяет экономить дисковое пространство и уменьшить время ожидания доступа к данным.
Дата
23 октября, 2015 г.
Рубрики
В статье упомянуты