Младший научный сотрудник HDI Lab Максим Каледин о научных проектах и опыте двойной аспирантуры
Максим Каледин, аспирант и младший научный сотрудник HDI Lab рассказал о своих научных проектах, задачах и двойной аспирантуре с École Polytechnique.
В последние два года школы я понял, что хочу заниматься информационными технологиями. Программирование уже тогда было модно: многие делали компьютерные игры, писали какие-то программы, но тренд на машинное обучение появился чуть позже, года через два. Я решил поступать в Вышку, потому что вдохновился примером своих старших товарищей по лицею, которые уже учились тут на факультете математики. Они хорошо отзывались об университете, говорили, что это очень нетипичное место. Так я тоже решил связать свою жизнь с этим университетом, и, как оказалось, очень надолго.
Сначала я поступил на МИЭМ, но после года там я понял, что эта программа не совсем для меня: у меня была сильная школьная подготовка, и хотелось чего-то большего. Я все активнее стал смотреть в сторону математического уклона и заинтересовался программой "Прикладная математика и информатика". На втором курсе я перевелся на ПМИ без потери года.
За три года я поменял нескольких научных руководителей и работал с разными задачами, но всегда понимал, что интереснее всего мне было бы заниматься математикой. В итоге я решил, что хочу работать именно над математической частью компьютерных наук.
О науке
Возникла идея пойти учиться на программу "Методы оптимизации и стохастики", которая сейчас называется "Математика машинного обучения".
"Математика машинного обучения" — это совместная магистратура со Сколтехом. Мне кажется, что она очень грамотно составлена, потому что в Вышке есть более теоретические математические курсы (многомерная статистика, элементы оптимизации), а Сколтех добавляет практические курсы (численная и линейная алгебра, компьютерное зрение). Мы получали лучшее из обоих подходов, и наш выпуск разделился практически пополам на теоретиков и практиков.
Пойти туда было идеальным вариантом: с одной стороны, это очень современные методы машинного обучения, а с другой, делался упор на математику, что очень нетипично для машинного обучения. Часто люди учат алгоритмы и методы, как решать какие-то конкретные задачи, но редко говорят о том, какая за всем этим стоит математика и почему это вообще должно работать.
В магистратуре я познакомился с многими коллегами, с которыми сейчас занимаюсь научной работой: я стал работать с Денисом Беломестным над задачей стохастического оптимального управления, которая в итоге привела меня в обучение с подкреплением. Эти две задачи достаточно близки, но при этом они все равно существенно отличаются. Сейчас я занимаюсь более математической стороной этого дела. У меня уже есть две статьи, одна в Mathematical Finance, она вышла в прошлом году. Это статья по оптимальной остановке, проект, который я делал в конце магистратуры — начале аспирантуры. Вторая статья про обучение с подкреплением была на COLT (Conference on Learning Theory), и вышла она в марте 2020 года. Первую статью мы делали с Денисом Беломестным, вторую с Эриком Мулином и Алексеем Наумовым. Недавно с Денисом Беломестным и Эриком мы подали статью на ICML, и еще есть заготовка второго материала — будем готовить его на NIPS.
О задаче
Обучение с подкреплением — это задача, в которой есть закрытая среда, например, компьютерная игра, и в этой среде есть агент, который должен принимать решения. Можно совершать разные действия (нажимать разные кнопки) и следить за тем, что произойдет, потом решать, что делать дальше. Задача обучения с подкреплением - подобрать такое решающее правило, чтобы этот агент оптимально существовал в такой среде, это похоже на задачу оптимального управления. Спектр применения этих задач достаточно большой. Если мы играем в компьютерную игру, мы всегда хотим, чтобы выигрыш был выше среднего. Если мы играем на бирже, мы хотим больше денег. Если мы управляем автомобилем, то наша задача - минимизировать отклонения от идеальной траектории. Кто-то создает новые методы для решения таких задач, я же пытаюсь совершенствовать те методы, которые уже есть, используя опыт лаборатории по снижению методов дисперсии для стохастических алгоритмов. Пока план такой, что я занимаюсь этой проблемой в этом году и буду в следующем. Правда, уже есть другие задачки, которые занимают голову, но эта задача все равно является очень интересной.
В практическом обучении с подкреплением есть достаточно много градиентных алгоритмов, которые используют градиент по политике. Политика — это решающее правило, которое агент использует для принятия решений. В мире много людей, занимающихся исследованием градиентных методов в обучении с подкреплением; например, некоторые коллеги на факультете интересуются этим вопросом. Оказывается, правда, что почти никто не доказывает, как дисперсия непосредственно влияет на эти оценки. Гарантированно ли помогает снижение дисперсии, и, если да, то в каких случаях? Как сравнивать разные методы снижения дисперсии? Сейчас очень распространены эксперименты на наборе базовых задач, по результатам которых получается, что метод 1 сходится, или быстрее учится получать большую награду, чем метод 2 в одних задачах, в других они работают одинаково, а в третьих оба не работают. Я работаю над обоснованием этих методов, пытаюсь найти объяснение, как эти методы можно сравнивать с теоретической стороны, более надежно, более понятно для математиков. В частности, это позволит улучшать конструирование этих методов.
О Франции
Во время первой поездки я провел во Франции четыре месяца и вернулся перед самым началом пандемии. Вторая поездка пока так и не состоялась, но я надеюсь поехать осенью. Договор предусматривает 18 месяцев пребывания там за три года. Прошлый год неудачно сложился, в этом, наверное, будет получше.
Кроме того, когда я был во Франции, я уже попал в ситуацию, схожую с пандемией: тогда было много забастовок на транспорте, поезда и автобусы не ходили. Я жил на плато Сакле, где находится École Polytechnique и еще несколько университетов. Приходилось на велосипеде ездить десяток километров в магазин, потом подниматься обратно в гору, а поскольку это плато, то подъем со всех сторон там довольно крутой. За три-четыре месяца я был в Париже раз десять, потому что выбраться туда было непросто.
Когда я передвигался по Парижу на велосипеде, у меня было ощущение, что я состязаюсь с автомобилями. Здесь очень много нерегулируемых перекрестков, где надо просто брать и ехать. Если ты недостаточно решителен, то тебя сомнут. Автомобилисты там довольно пугливы, потому что штрафы для них существенно выше, чем для пешеходов. Если случится нарушение, они пострадают больше. В спорной ситуации они затормозят в последний момент, но это не значит, что ты на велосипеде спокойно к этому отнесешься. Так что эта поездка прокачивала не только решение задач, но и решительность.
Двойная аспирантура
О двойной аспирантуре мы начали договариваться еще на втором курсе моей магистратуры. В какой-то момент я стал много общаться с Эриком, и мы поняли, что у нас есть какие-то общие точки, мы можем делать совместные проекты. Так и зародилась идея двойной аспирантуры. Для европейских университетов двойные аспирантуры — достаточно распространенная практика, и обычно каждый случай решается индивидуально. Мы нашли условия финансирования, договорились о теме диссертации, а дальше дело было только за бумажной работой.
У моего французского научного руководителя, Эрика Мулина, аффилиация с Центром прикладной математики École Polytechnique. Сам École Polytechnique как университет больше, чем в целом по Европе. Большой кампус, много студентов, профессоров и исследователей. Лаборатории там тоже крупнее, чем в среднем. Например, на нашем факультете типичная лаборатория — это несколько десятков сотрудников. В École Polytechnique в центре прикладной математики больше сотни сотрудников: это и студенты-докторанты, свои исследователи, профессора, а сама лаборатория занимает четыре этажа большого здания. Как следует из названия, люди здесь занимаются совершенно разными темами. Среди исследователей есть и статистики, и оптимизаторы, и люди, которые ближе к физическим приложениям и занимаются решением дифференциальных уравнений.. Когда я работал в этой лаборатории, то регулярно ходил на научный семинар, где докторанты делали доклады и рассказывали о своей научной деятельности. Я общался с людьми, которые занимались совершенно другими темами, и разнообразие тем потрясало воображение.
Что касается самой работы, то Эрик находится во Франции, мой другой научный руководитель Денис Беломестный в основном в Германии, а я здесь. К дистанционному формату мы давно привыкли, все находимся в разных местах, с этим надо как-то жить. Мы периодически созваниваемся, обсуждаем достижения, идеи, что получилось, что делать дальше. Последний месяц-два, после того, как мы подали статью на ICML, я смотрю, что можно дальше делать, параллельно исследую новые темы, за что можно удачно зацепиться, и больше трачу времени на изучение нового.
Я считаю, что если есть возможность, то обязательно нужно попробовать двойную аспирантуру. Нужно быть готовым к тому, что ни один из научных руководителей не знают всех необходимых формальностей. Нужно будет выяснять детали на месте, общаться с администраторами, читать большое количество документов, но, потратив на это полгода или год, понимаешь, что оно того стоило.