Третья летняя школа по машинному обучению в физике высоких энергий
С 17 по 23 июля факультет компьютерных наук совместно со Школой анализа данных Яндекса и Имперским колледжем Лондона провел III Международную летнюю школу «Машинное обучение в физике высоких энергий» (“Machine Learning in High Energy Physics”) в университете Рединга (Великобритания). В мероприятии приняли участие 60 студентов, аспирантов и ученых из 18 стран и 47 университетов.
Среди них — трое учащихся Высшей школы экономики, которые получили грант на бесплатную поездку от научно-учебной лаборатории методов анализа больших данных (LAMBDA). Принять участие в конкурсе на получение гранта мог любой студент факультета.
В программе мероприятия — более 60 часов лекций и семинаров, а также 2 соревнования по анализу данных, посвященных поиску темной материи. Школа охватывала такие темы, как линейные модели, градиентный бустинг, гипероптимизация, глубокое обучение, сверточные и рекуррентные нейронные сети. Материалы содержали примеры использования машинного обучения для решения конкретных практических задач, взятых из опыта работы ШАДа и ВШЭ в эксперименте LHCb. Лекторами и преподавателям основной программы стали сотрудники LAMBDA Андрей Устюжанин, Максим Борисяк и Никита Казеев. Среди спикеров школы были сотрудники Яндекса Алексей Артёмов и Александр Панин. В качестве приглашенных докладчиков на школе выступили ведущие физики и специалисты по машинному обучению из различных университетов и экспериментов: Dr. Noel Dawe (University of Melbourne, Australia, эксперимент ATLAS), Dr. Timothy Daniel Head (WildTree Technologies, Switzerland), Prof. Mike Williams (MIT, US, эксперимент LHCb).
Школы по машинному обучению в физике высоких энергий для факультета компьютерных наук стали уже традиционными. Первая школа состоялась в 2015 году в Санкт-Петербурге, в прошлом году школа проходила в университете Лунда в Швеции, сейчас школу принимал университет Рединга в Великобритании. Отрадно, что наряду с сотрудниками лаборатории LAMBDA и преподавателями факультета в работе школы регулярно принимают участие наши студенты. Опыт данных школ служит дальнейшему развитию сотрудничества факультета с Европейским центром ядерных исследований (ЦЕРН).
Соревнования по анализу данных были организованы на платформе Kaggle. Выборка представляла собой смесь реальных фоновых данных и моделированных электромагнитных ливней эксперимента OPERA. Решения, предложенные участниками этих соревнований, могут помочь экспериментам OPERA и SHiP найти новые эффективные подходы поиска следов взаимодействия темной материи. По итогам соревнований, проведенных во время школы, было решено продлить заключительный онлайн этап до конца лета. Для проведения самостоятельных занятий во время семинаров и соревнований использовались ресурсы Яндекса и Microsoft Azure. Доступ к ним обеспечивался благодаря проектам jupyterhub и everware. Everware — надстройка над jupyterhub, позволяющая гибко настраивать рабочие окружения из github-репозитория, разработанная при активном участии сотрудников ШАДа и LAMBDA. Материалы школы опубликованы в github-репзоитории.
Впервые о школе я узнал на одном из мероприятий первого сентября 2017 года, где о ней рассказывал Петр Жижин, участник прошлогоднего мероприятия. Еще в школе я участвовал в олимпиадах по физике, а про машинное обучение с интересом читал в интернете. Обе темы мне, определенно, были интересны. Именно поэтому я поставил перед собой цель попасть на эту школу.
Когда на почту пришла информация о грантах на поездку от факультета, я сразу же написал большое мотивационное письмо о том, почему стоит взять именно меня. После одобрения заявки требовалось пройти собеседование. Несмотря на небольшое волнение, мне все же удалось успешно себя показать — я получил грант на участие.
Если говорить о самой школе, то мне крайне понравилось, что за столь небольшой срок мы успели разобрать все основные алгоритмы машинного обучения, начиная от самой простой линейной регрессии и заканчивая нейронными сетями. Теперь, если я захочу более подробно что-то изучить в машинном обучении, у меня уже будет достаточный бэкграунд, чтобы это сделать.
Также на школе проходили соревнования на платформе Kaggle, в которых мог принять участие любой желающий. Основной целью соревнований было научиться обнаруживать нейтрино. Я попробовал разные методы для этой задачи, но лучше всего показал себя XGBoost. Я сильно удивился, когда узнал, что даже самые топовые решения использовали именно его, а не нейронные сети. Основной сложностью соревнования стал feature engineering, с которым, естественно, лучше всего справились физики.
Очень важным аспектом школы было общение с учеными и студентами со всего мира, с некоторыми мы даже обменялись контактами. Многие из тех, кто был на мероприятии, занимаются исследованиями в области физики. Было интересно послушать их рассказы о новых результатах. Стоит отметить, что почти все из них применяют, в той или иной мере, машинное обучение.
Одним словом, от участия в школе остались хорошие впечатления. Спасибо Яндексу и ФКН за возможность принять участие в таком мероприятии.
«Прикладная математика и информатика»
Я учился в физмат классе, в одной из самых топовых школ России, где физику преподавали на очень высоком уровне. Когда я поступал на ФКН, мне было немного грустно, что придется бросить свое увлечение.
В конце первого курса я уже слышал о проведении этой летней школы в Швеции, но свой шанс подать заявку я тогда упустил. Год спустя я решил, что в этот раз точно на нее попаду.
Сначала было уведомление о школе на групповую почту. В заявке я описал всю свою действительно сильную мотивацию и интерес. Потом я попал в шорт-лист претендентов, прошел собеседование и в итоге был отобран на саму школу. Я был этому очень рад!
Летняя школа очень сильно подогрела мой интерес к изучению машинного обучения (МО). До этого я не брал никаких курсов по МО, лишь занимался близкими к этому проектами. Интенсивность занятий была высокой, под конец мне было уже трудно угнаться за ней. Еще до самой школы я знал, что участвовать в ней будут люди, которые уже работают в области физики высоких энергий на реальных экспериментах, что с ними можно будет неформально общаться и задать вопросы. Каково же было мое удивление, когда многие из них не только охотно на эти вопросы отвечали, но и делали доклады и презентации, рассказывая о своей работе.
Особое место в работе летней школы было уделено соревнованиям на kaggle. Их было два, и на обоих была задача распознавания следов темной материи в очень шумном фоне. Для ее решения я пробовал различные методы машинного обучения, которые мы рассмотрели на лекциях и семинарах: и линейную регрессию, и случайные леса, и XGBoost, и нейронные сети. Последние, кстати, я проверить не смог — сеть не успела доучиться до дедлайна.
После школы я не собираюсь останавливаться, планирую взять курсовую по смежной теме, а до конца лета принять участие в проекте по поиску треков частиц в условиях большого объема данных.
«Науки о данных»
Поездка на летнюю школу MLHEP 2017 в г. Рединг (Англия) стала для меня по-настоящему вдохновляющим событием, которое запомнится надолго. Где ещё удастся за неделю так глубоко погрузиться в изучение машинного обучения в физике высоких энергий, послушать лекции передовых учёных, пообщаться с участниками школы со всего мира, попробовать решить актуальную задачу с одного из экспериментов ЦЕРНа в рамках соревнования на платформе Kaggle?
Школа проходила в уютном университетском кампусе на окраине города, в 30 минутах ходьбы от центра, в академгородке царила умиротворенная и располагающая к учебе атмосфера. Программа была насыщенной: занятия начинались каждый день в 9 утра и заканчивались ближе к ужину. Лекции и семинары читались сотрудниками ШАДа Яндекса и лаборатории LAMBDA на ФКН. Было затронуто множество тем, начиная с основ машинного обучения (линейные модели для задач регрессии и классификации, выбор метрики качества, переобучение и пр.) и заканчивая продвинутыми вещами из глубинного обучения, например, рекуррентными (RNN) и генеративно-состязательными (GAN) нейронными сетями. Во второй половине дня выступали приглашенные лекторы из США, Китая, Австралии, Великобритании.
Задача, которую нам предложили решить в течение недели, звучала многообещающе. На международном эксперименте OPERA ученые пытаются обнаружить следы нейтрино, который является одним из кандидатов-частиц, образующих темную материю во Вселенной. Т.к. положительный сигнал в симулированных данных составлял менее чем 0,02% от всей обучающей выборки, возникли немалые сложности с тем, чтобы модель могла улавливать не только шум.
Стоит отметить, что подавляющее число собравшихся слушателей-физиков (аспирантов и молодых научных сотрудников) можно было условно разделить на две группы. Первые ранее применяли алгоритмы машинного обучения в своей работе при обработке накопленных данных с детекторов частиц, но хотели овладеть более продвинутыми технологиями, в то время как вторые были мало знакомы с этой областью и столкнулись с ней так подробно впервые. Интересно было всем. И именно поэтому сотрудники Яндекса и ФКН делают очень правильную и классную работу, проводя подобного рода школы и просвещая зарубежных коллег в полезности ML в их исследовательских задачах.
Информацию о летних школах факультета компьютерных наук вы можете найти на странице |
О других мерпориятиях, проводимых факультетом, вы можете узнать в разделе « Проекты факультета» |
Борисяк Максим Александрович
Казеев Никита Александрович
Устюжанин Андрей Евгеньевич
Аржанцев Иван Владимирович
Факультет компьютерных наук: декан