Семинар лаборатории LAMBDA «Оптимизация системы распределенного хранения данных»

На семинаре лаборатории LAMBDA выступил Гущин Михаил Иванович - аспирант МФТИ, исследователь-разработчик в ШАД. 

Тема его доклада: Оптимизация системы распределенного хранения данных.

Аннотация.LHCb - это один из четырех главных экспериментов на Большом Адронном Коллайдере в ЦЕРН. Детекторы LHCb   и моделирование физических процессов генерируют ежегодно 15000 PB   необработанных данных. Обработанные данные  хранятся в распределенной системе хранения на жестких дисках и магнитных лентах. Диски используются для хранения данных, которые физики используют для своих текущих исследований. Жесткие диски намного быстрее магнитных лент и значительно дороже их, в результате объем дискового пространства существенно ограничен. Поэтому очень важно определить какие файлы нужно держать на дисках, а какие хранить в виде архивов на магнитных лентах.

В этой работе мы представим систему управления дисковой  памятью для LHCb на основе методов статистического анализа истории обращения к данным. Мы покажем как можно использовать алгоритмы машинного обучения для прогноза популярности файлов. Использую предсказанную популярность можно определить какие  файлы можно удалить с диска.  Мы  используем алгоритмы  регрессионного анализа и алгоритмы анализа временных рядов, чтобы определить оптимальное число копий  файлов на диске. На основе предсказанной популярности файлов и оптимального числа копий мы минимизируем функцию потерь  для определения оптимального распределения данных. Функция потерь выражает требования к распределению данных в системе хранения. Мы покажем как наша система позволяет экономить дисковое пространство и уменьшить время ожидания доступа к данным.