Мини-курс "Introduction to reinforcement learning" профессора Эрика Мулина
Научный руководитель Лаборатории стохастических алгоритмов и анализа многомерных данных (HDI Lab) , профессор, член академии наук Франции Эрик Мулине прочитал серию вводных лекций об обучении с подкреплением (Reinforcement Learning) на факультете компьютерных наук 16 и 23 апреля 2019 г.
Обучение с подкреплением (далее RL) – достаточно старая область, которая получила живое развитие в последние 20 лет благодаря развитию компьютерных мощностей и методов машинного обучения. Идея методов RL весьма естественна и соотносится с тем, как люди учатся решать задачи. Например, когда вы учитесь кататься на велосипеде никто не даёт вам 100 часов видео с людьми, едущими на велосипеде. Не существует многотомных книг с указаниями как ставить ноги при ходьбе. Никто не учит иностранный язык только по "обучающим выборкам" слов, фраз и их перевода. Оказывается, что у каждого обучения есть цель: научиться управлять велосипедом, ходить не падая или составлять грамотные тексты. Во всех случаях это метод проб и ошибок, при этом за успех есть некоторая награда, а за неудачу – штраф.
Методы RL только находят свои приложения, с их помощью можно участвовать в рекламных RTB-аукционах, автоматизировать производство, используя роботов (Fanuc), оптимизировать промышленные химические реакции. RL часто используется в компьютерных играх, так как там можно проводить много относительно дешёвых экспериментов и, что важнее, всегда есть естественная цель – победить или получить больше очков. Алгоритмы Alpha (Google DeepMind) побеждают чемпионов в Go и шахматы (AlphaGo 2015 и AlphaZero 2017), в Starcraft (AlphaStar 2019) и DOTA (OpenAI Five).
Используя свой многолетний опыт в задачах стохастического управления, сотрудники HDI Lab планируют подвести более фундаментальную науку под RL, которой сейчас немного из-за того, что существующие алгоритмы непросто теоретически анализировать. В лекциях Эрика Мулина будет рассмотрено как ядро методов RL – марковские процессы принятия решений, динамическое программирование, так и современные подходы к решению задач.
Видеозапись лекции №2:
Мулине Эрик Франсуа Виктор
Международная лаборатория стохастических алгоритмов и анализа многомерных данных: Научный руководитель