• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сотрудницы лаборатории LAMBDA об исследованиях галактических кластеров

Сотрудницы лаборатории LAMBDA об исследованиях галактических кластеров

Canva

Сотрудницы лаборатории LAMBDA Алёна Зароднюк и Екатерина Трофимова рассказали нам о своих исследованиях, галактических кластерах и романтике поиска темной материи. 

Образование

Зароднюк Алёна Владимировна
Научно-учебная лаборатория методов анализа больших данных: Научный сотрудник

Я училась на мехмате МГУ: закончила специалитет в 2014 году. Там же я закончила аспирантуру, защитила кандидатскую, и потом решила поискать себя где-то в другой области.

Поскольку моя задача для кандидатской работы была больше теоретическая и аналитическая, то программирование там использовалось по минимуму. Мы работали в специальных программах типа Wolfram или Mathlab, но в основном у нас была аналитика руками на бумаге, достаточно теоретическая, поэтому программирования было меньше — оно использовалось только для построения визуализаций.

После защиты я рассматривала различные должности постдока, нашла на ФКН задачу по гранту и подала заявку. Написала, что у меня, конечно, нет такого опыта программирования, который требуется, но если очень надо, я научусь. В меня поверили, и вот я здесь.

Трофимова Екатерина Алексеевна
Научно-учебная лаборатория методов анализа больших данных: Младший научный сотрудник

У меня был долгий путь к анализу данных: я закончила бакалавриат в филиале МГУ, поступила в Центр матфинансов, потом решила пойти в магистратуру на финменеджмент в МГУ. Во время этой магистратуры у меня была стажировка в Швейцарии, где я взяла максимально связанные с математикой курсы и поняла, что хочу заниматься анализом данных. На тот момент я уже работала во французском холдинге BNP Paribas, была младшим аналитиком в страховой компании, и решила, что мне интересно заниматься анализом данных, и что вообще я хочу развиваться в академической среде.

Чтобы поступить в аспирантуру, мне был нужен диплом, связанный с анализом данных — именно так я нашла программу Вышки "Статистическая теория обучения", которая была максимально связана с анализом данных в теоретическом аспекте — это была идеальная программа для академического анализа данных. Я выбрала анализ данных, потому что это такая сфера, которая позволяет развиваться в разных направлениях: можно уйти в медицину или, как наша лаборатория, заниматься фундаментальными науками. 

Лаборатория

Екатерина и Алёна: Наша лаборатория LAMBDA ведет несколько научных проектов совместно с ЦЕРН — Европейской организацией по ядерным исследованиям. Один из них — CALAGAN — проект, который связан с симуляцией быстрого отклика одной из частей детектора эксперимента LHCb. Также у нас ежегодно проводится летняя школа Machine Learning in High Energy Physics, в этом году она состоится уже в седьмой раз — ее мы проводим совместно со Школой анализа данных Яндекса и EPFL.

В лаборатории действует reading club, где мы с коллегами обсуждаем научные статьи по физике высоких энергий и другим разделам науки. Например, у нас выступал один из старших коллег, который уже получил PhD, и он рассказывал про более математическую статью, про математику, которая лежит в основе оптимизаторов, так что мы не ограничены физикой.

Нашу лабораторию можно условно разделить на физиков и аналитиков данных. Основной костяк лаборатории — выпускники МФТИ, для них физика — близкая тема. Но у нас есть и другие задачи, связанные с томографией, и наша задача с галактиками, другие астрофизические задачи, например, по поиску и детекции сверхновых. Конкретного фокуса нет: мы берем задачи, которые кажутся нам интересными.

На ФКН существует менторская поддержка студенческих проектов. Студентам предлагается тема для проекта, они ее исследуют, пишут работу, а мы им помогаем в вопросах написания статьи, выступления на конференциях, ведем более общее научное руководство. Например, я как ментор провожу еженедельный созвон с ребятами, и когда у нас есть какой-то сложный вопрос из физики высоких энергий, мы обращаемся к Федору Ратникову. Как менторы мы предлагаем пути развития — что ребятам можно рассмотреть, что им стоит сделать, мы смотрим на процесс, говорим, какими могут быть недочеты, как можно улучшить то, что они уже сделали. В нашей задаче эксперты — это астрофизики, и мы периодически созваниваемся, уточняем что-то, потому что от них периодически приходят новые данные. 

Исследование

Галактические кластеры — это скопления галактик, самые большие объекты во Вселенной, которые удерживаются вместе гравитацией. С помощью телескопов мы можем наблюдать их положение на небесной сфере по двум координатам, но расстояние до них невозможно определить из-за различных искажений, которые возникают за счет их удаленности, скоростей и множества других эффектов. Мы не можем точно определить, на каком расстоянии от нас находится тот или иной объект, мы можем только примерно обозначить диапазон.

Определение границ кластера — достаточно сложная задача, потому что есть только общие предположения, из которых исходят астрофизики. Например, кластеры не могут быть больше десяти мегапарсеков, иначе такая структура бы разрушилась. Если говорить теоретически, то у нас есть область, где плотность галактик выше и есть область, где она ниже. Чтобы определить границы кластеров, мы пытаемся использовать методы кластеризации из области машинного обучения.

Наша конечная цель — это определение масс кластеров, но мы считаем, что сложно определить массу, не зная самих кластеров. Изначально мы не знаем, какое количество кластеров мы хотим найти. У нас есть какие-то галактики, но мы не знаем, сколько всего у нас скоплений. Сейчас мы работаем над каталогом, где галактики классифицированы по их массам и кластерам. Около пяти лет назад уже выходил подобный каталог, в котором астрофизики провели подобную классификацию. Однако нельзя утверждать, что их выводы абсолютно верны. Мы пытаемся использовать эти данные в качестве опорной точки, но мы не можем говорить, что наши результаты должны совпадать. Эти данные скорее для сравнения, а истины мы все-таки не знаем.

На данный момент у нас имеется порядка 40-50 признаков для каждой галактики — это положение на небесной сфере, красное смещение, светимость и другие. У нас очень много данных — изначально у нас было около 500 столбцов таблицы. Первой задачей было уменьшить размерность таблицы, поэтому мы использовали вариационный автокодировщик, чтобы сделать локальное представление данных и снизить размерность. После этого мы применяли плотностной иерархичный алгоритм кластеризации HDBSCAN. После общения с астрофизиками мы поняли, что часть данных у нас нерелевантна и размерность снизилась благодаря этому. Поэтому сейчас у нас другой план.

У нас нет возможности оценить качество работы нашего алгоритма кластеризации и, соответственно, оценки масс. Поэтому мы решили сначала сделать какую-то кластеризацию нашего датасета, затем сделать на этих сырых данных предсказание масс, а потом сделать кластеризацию этих масс. Эти две кластеризации должны быть сопоставимы. Если они сопоставимы, значит, наш алгоритм кластеризации работает хорошо. Однако сейчас астрофизики советуют нам внедрить в алгоритм предварительную оценку с помощью каустик — методов, позволяющих определить принадлежность галактики к кластеру на основе ее скорости относительно центра.

Сейчас наша цель — сравнить наш алгоритм с HDBScan, который уже зарекомендовал себя в анализе данных со сложной структурой, например, в тех случаях, когда кластер невозможно линейно разделить несколькими гиперплоскостями. 

Будущие проекты

Екатерина: Моя диссертация связана с интерпретируемостью моделей машинного обучения и созданием интерпретируемых суррогатных моделей. Сейчас есть очень интересная задача, связанная с детекторами частиц. У нас есть симуляция, а есть обратный вывод, который позволяет воспроизвести все параметры модели, и мы хотим создавать суррогатные интерпретируемые модели обратного вывода, которые нужны, например, для оптимизации архитектуры определенного детектора. 

Алёна: У меня пока было не так много проектов по анализу данных, поэтому мне были бы интересны любые темы. У нашей лаборатории очень много интересных треков, связанных с физикой, медициной, даже социальными науками, в общем, большое поле для деятельности. 

Мотивация

Алёна: На данный момент мне интересна сама возможность помочь разобраться с фундаментальными вопросами устройства мира. То, чем мы занимаемся — это что-то настолько глобальное, что больше, дольше и главнее нас. Астрофизики, например, говорят, что получение масс скоплений — это не конечная цель, это необходимо, чтобы исследовать темную материю. Если как-то получится помочь ученым в исследовании, было бы очень здорово. Что бы мы ни делали, мы явно придем либо к открытию чего-то нового, либо к "закрытию" чего-то старого.

Екатерина: Не так давно в течение, наверное, полугода, с помощью алгоритмов, которые были разработаны нашими коллегами, в Большом адронном коллайдере открыли новую частицу. Очень классно работать в такой атмосфере, с людьми, на которых хочется равняться, за которыми хочется идти. В поиске темной материи есть даже какая-то нотка романтики. Даже если мы сделаем минимальный шаг, опубликуем статью, на которую другие ученые будут опираться, это уже достойный вклад. В отличие от индустрии здесь нет молниеносной награды за достижения. Осознание того, что маленькая частица твоего труда может влиться в огромную всемирную сущность — мне кажется, это круто.