Центр искусственного интеллекта НИУ ВШЭ

Исследователи НИУ ВШЭ выступили на семинаре в AIRI

На Заседании регулярного научного семинара Института искусственного интеллекта AIRI Алексей Наумов, руководитель проекта «Обучение, понимание и оптимизация моделей ИИ» Центр ИИ НИУ ВШЭ, заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных, и Даниил Тяпкин, стажер-исследователь Международной лаборатории стохастических алгоритмов и анализа многомерных данных НИУ ВШЭ, представили статью «From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses». Она удостоилась большого устного доклада на конференции ICML. Такую возможность получают только 2% исследователей, у которых приняли статьи.

Photo by Monstera

Photo by Monstera

Алексей Наумов рассказал о совместном проекте, к которому подключились коллектив НИУ ВШЭ, Михаль Валько, Пьер Менард. «Работа длилась более года, особую сложность вызвал выбор задачи. А потом достаточно быстро сформировалась эта статья»,  пояснил ученый.

Доклад Даниила Тяпкина посвящен содержанию статьи по обучению с подкреплением, которое отличается от глубинного обучения. Одной из целей работы было построить алгоритм, который будет одновременно доказуемо оптимален в табулярном случае, а его обобщение на глубинном обучении будет хорошо работать. В теоретической части доклада рассматривается табулярный эпизодический Марковский процесс принятия решений. «Это означает, что у нас есть конечный горизонт, и нет коэффициента дисконтирования,»  объяснил исследователь.

Фундаментальное отличие этой работы от предыдущих в том, что ранее использовался подход обычной линейной регрессии. Даниил Тяпкин отметил, что добавление мультипликативного шума повышает разнообразие нашей выборки и дополнительно поощряет исследование среды. Экспериментально метод, описанный в статье, показал себя на уровне с лучшими другими известными подходами в обучении с подкреплением. В результате был выведен теоретически оптимальный алгоритм, который работает без бонусов, что позволяет его обобщить. Было установлено взаимодействие между людьми, которые занимаются чистой теорией и теми, кто создает практические алгоритмы.