• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Обучение с подкреплением

Преподаватель

Борисяк Максим Александрович

Научно-учебная лаборатория методов анализа больших данных: Стажер-исследователь

 

Расписание

по понедельникам с 18.10 до 21.00
с 21.01 по 18.03 — ауд. 622 
экзамен состоялся 30 марта

Программа факультатива

Обучение с подкреплением — наука об управлении злобным агентом в выдуманном мире (с)

Если приглядеться к нашей с вами жизни, можно заметить, что мы (люди) обычно занимаемся отнюдь не разметкой примеров и отображением X->y, минимизирующим эмпирический риск: мы существуем в мире, на который мы можем влиять, и который в свою очередь влияет на нас. А хотим мы в этом мире добиваться каких-то результатов: дойти до “из точки Aточки B”, заработать побольше денег, привлечь и удержать пользователя - кому что ближе. 

Задачи эти объединяет то, что в них вам придётся двигаться методом проб, ошибок, шишек и новых проб - у вас просто нет всеобъемлющей выборки, в которой есть правильная стратегия поведения во всех ситуациях. А ещё эти задачи объединяет то, что их можно решать автоматически. Да-да, творческий поиск решения задачи, выбор дизайна страницы или повышение “скилла” в любимой игрушке - машины это уже умеют.

Курс очень хочет дать своим слушателям понимание и практические навыки использования таких “машин”, именуемых “Алгоритмами обучения с подкреплением” или “Reinforcementlearning”. В меню - теоретическая база, практические задания, инженерные “хаки” и неординарные предметные области. Даже биржевую торговлю завезли. 

А ещё этот курс немного связан с методами глубокого обучения - их тут около трети. Так уж вышло, что многие задачи ReinforcementLearningсейчас лучше всего решаются с применением пресловутых “нейронок”. Если Вы их не знаете - не бойтесь, научим.

Пререквизиты:

Машинное обучение 1, Теория вероятностей

Полезно, но не обязательно — машинное обучение 2 и байесовские методы

Отчётность:

Модель отчётности: оценки ставятся по баллам, которые выдаются за выполнение форм контроля.

Основной источник баллов – домашние задания. Они выдаются после семинаров, делаются, отправляются, проверяются и зарабатывают баллы. 

Второй источник баллов — проекты. Их можно делать, а можно не делать, зато делать больше домашек. Проекты — решение любой нетривиальной задачи RL, воспроизведение статьи или что-то близкое по духу. Правила для проектов аналогичны нашему курсу deeplearning — https://github.com/yandexdataschool/HSE_deeplearning/wiki/Course-projects