Исследователи НИУ ВШЭ выступили на семинаре в AIRI
Алексей Наумов рассказал о совместном проекте, к которому подключились коллектив НИУ ВШЭ, Михаль Валько, Пьер Менард. «Работа длилась более года, особую сложность вызвал выбор задачи. А потом достаточно быстро сформировалась эта статья», – пояснил ученый.
Доклад Даниила Тяпкина посвящен содержанию статьи по обучению с подкреплением, которое отличается от глубинного обучения. Одной из целей работы было построить алгоритм, который будет одновременно доказуемо оптимален в табулярном случае, а его обобщение на глубинном обучении будет хорошо работать. В теоретической части доклада рассматривается табулярный эпизодический Марковский процесс принятия решений. «Это означает, что у нас есть конечный горизонт, и нет коэффициента дисконтирования,» – объяснил исследователь.
Фундаментальное отличие этой работы от предыдущих в том, что ранее использовался подход обычной линейной регрессии. Даниил Тяпкин отметил, что добавление мультипликативного шума повышает разнообразие нашей выборки и дополнительно поощряет исследование среды. Экспериментально метод, описанный в статье, показал себя на уровне с лучшими другими известными подходами в обучении с подкреплением. В результате был выведен теоретически оптимальный алгоритм, который работает без бонусов, что позволяет его обобщить. Было установлено взаимодействие между людьми, которые занимаются чистой теорией и теми, кто создает практические алгоритмы.
Наумов Алексей Александрович
Руководитель проекта
Тяпкин Даниил Николаевич
Стажер-исследователь