• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Андрей Устюжанин о Летней школе по применению машинного обучения в физике высоких энергий

30 августа закончилась Летняя школа по применению машинного обучения в физике высоких энергий, которую ВШЭ провела совместно с Школой Анализа Данных Яндекса (ШАД) и Yandex Data Factory (YDF). Школа проходила в Академическом Университете Санкт-Петербурга. Эта школа – продолжение сотрудничества между Яндексом и CERN, в ходе которого исследователи YDF и ШАДа  работают вместе с физиками-экспериментаторами над решением проблем современной физики. Во многих задачах требуется использование подходов машинного обучения, благодаря которым удается повысить точность и эффективность этих исследований. 


Андрей Устюжанин,
руководитель Научно-учебной лаборатории методов анализа больших данных,
директор Летней школы по применению машинного обучения в физике высоких энергий

Все участники школы (около 50 человек) разделились на две группы – начинающие и продолжающие. Основной акцент первой группы был сделан на знакомстве с принципами работы алгоритмов машинного обучения (решающие деревья, линейные модели, нейросети, ансамбли), оценке качества моделей и использовании классификаторов для тестирования физических гипотез; также обсуждалось сравнение и перевзвешивание многомерных распределений при помощи машинного обучения. В продолжающей группе акцент был сделан на продвинутых алгоритмах (методы отбора признаков, ансамбли, манипуляции с обучающей выборкой: генетические алгоритмы, hill climbing, rotation forest; уменьшение размерности: PCA, SVD, нелинейные методы; идеи глубокого обучения) и на применении алгоритмов в решении конкретных физических задач. 

Помимо занятий по машинному обучению в рамках школы было прочитано несколько обзорных лекций по практическим аспектам применения машинного обучения в экспериментах CERN. Сотрудники экспериментов LHCb и CMS рассказали про оптимизацию онлайн фильтрации событий с использованием машинного обучения, предсказание качеств рождённых частиц, обнаружение бозона Хиггса и поиски нестандартных физических процессов в экспериментальных данных. Фильтрация событий в реальном времени на раннем этапе обработки событий и восстановление структуры событий с использованием подходов глубокого обучения в эксперименте LHCb – результат совместной работы учёных из CERN и ВШЭ.

Особый акцент был сделан на практических задачах. Человек обычно забывает около 90% из услышанного, около 60% из увиденного и только 10% из сделанного своими руками   . Поэтому семинары школы включали практическое знакомство с алгоритмами и инструментами, которые участники могут использовать в дальнейших исследованиях. Помимо семинаров мы организовали конкурс на площадке Kaggle, в основу которого легли данные, полученные на симуляторе эксперимента COMET, который строится в Японии. Цель этого эксперимента – найти принципально новый физический процесс, который проявляется в безнейтринных распадах мюонов в электроны. Обнаружение подобного распада изменит наше представление о физике частиц, так как он противоречит нынешней Стандартной модели. Аспирант Imperial College London, участник COMET провел два месяца этой весной на стажировке в ШАДе, практикуясь в задаче использования машинного обучения для поиска траекторий частиц (треков) определенного вида (именно форма треков позволяют судить о произошедшем процессе). В результате совместной исследовательской работой мы смогли повысить эффективность алгоритмов на имеющихся данных с 83% до 99,9%. С задачей стимуляции практической деятельности конкурс справился отменно – в последний день борьба за первое место не давала участникам покоя до последних секунд.

Немного статистики

Профиль участников: физики - 65%, сomputer Science - 30%, другое - 5%


Ученая степень участников


8 (30.8%)

Undergraduate student

12 (46.2%)

PhD student

4 (15.4%)

PhD

2 (7.7%)

Other


Материалы школы доступны в публичном репозитории.

Отдельного внимания стоит описание инфраструктуры, которую мы использовали для проведения школы. От самих участников требовалось очень мало – принести ноутбук с возможностью подключения к wifi и не самым древним браузером. Все вычисления для участия в семинарах и в соверновании, производились в облаке. На 50 участников было выделено порядка 12 виртуальных машин из OpenStack облака Яндекса. 

Для создания рабочего окружения участников мы использовали технологию виртуализации Docker, которая позволяет гибко настраивать индивидуальные контейнеры с нужным программным обеспечением. Каждому участнику был предоставлен контейнер с 4GB RAM и 2 CPU. Все машины объединены в Docker-swarm , а на головном сервере был установлен Jupyterhub с поддержкой аутентификации пользователей на github.com.   Благодаря технологии Docker участники, которым не хватало облачных ресурсов, могли установить точно такое же окружение на свои ноутбуки или сервера и использовать их вычислительные ресурсы. 

В качестве образа окружения для запуска пользовательских docker-контейнеров мы сделали специальный образ на основе REP, который интегрировали с Jupyterhub-ом и расширили необходимыми модулями для семинаров. REP помог одному из участников занять призовое место в нашем соревновании – простым переключением с базового алгоритма (AdaBoost) на более продвинутый (XGBoost) он смог подняться до первого места (которое незадолго до окончания конкурса было снова отвоевано студентами 2-го курса магистратуры "Науки о данных" факультета компьютерных наук – Сергеем Королевым и Дмитрием Петровым). REP позволяет тестировать алгоритмы, выбирая наиболее эффективный, и строить из них цепочки обучения, как из блоков конструктора Лего.

Файлы (данные, с которыми работают участники и рабочие тетрадки -- файлы описания анализа этих данных) хранились на распределенной файловой системе moosefs, поэтому в ходе школы было несложной задачей обновить обновить все контейнеры участников с 2GB до 4GB RAM без потерь их файлов. Такое хранилище также позволяет восстановить работоспособность окружения в случае падения одной из машин: достаточно будет запустить новую и пользователи старой машины автоматически переходят на новую машину. Файлы участника доступны только ему. Общая файловая система является удобным инструментом для быстрого распространения объемных файлов с данными, требовавшихся для выполнения практических заданий.

Подобная школа проводится в первый раз, однако отзывы, полученные от участников, внушают оптимизм: «порекомендовали бы вы эту школу своим друзьям и коллегам по шкале: 1 (никогда) - 5 (да, конечно!)»:




Интересным результатом школы является решение конкурсной задачи само по себе - ее формулировка взята из реальной задачи распознавания треков эксперимента COMET. Ей занимался Ewen Gillies - аспирант Imperial College London под руководством Алексея Рогожникова в ходе прохождения практики у нас. Мы немного упростили реальную задачу для школы, и дали несколько ценных подсказок, но, тем не менее, качество результатов участников школы сравнимо с качеством результатов, полученных в ходе практики. Поздравляем Сергея Королева и Дмитрия Петрова, занявших первое место в нашем конкурсе!


 

 I liked almost everything: the location was fantastic, selection of participants was good, hosts were great and incredibly kind, school material was good, challenge offered a great hands-on experience... Though, there was not enough time for attending the lectures, doing the challenge and exploring the city, so it would be good if the school lasted 7 instead of 4 days. Also, a small tour around the city center on the first day of the school would have been nice.

Ana Trisovic, UK, Cambridge

The School was very interesting, useful and qualitative. The only problem for me was that maybe my Python knowledge was not good enough (but it's my problem, not the School's). But, anyway, I have all the examples now and all the seminars, and I've already started to do through places I didn't understand by myself. I'm so happy that I had an opportunity to see all these interesting people. I learned a lot of new things not only through lectures and seminars, but also through communication. And I'm happy that now I still have the seminars materials and can remember something in any moment. Material organization is perfect! Many thanks for organizers for these amazing few days!

Alina Eksaeva, Russia, MEPHI
 

I liked the high level quality of speakers and team working among participants.

Leonardo Cristella, Italy, University of Bari