• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Выездной интенсив "Введение в Reinforcement Learning"

Если вы интересуетесь reinforcement learning (RL), значит, вы уже знакомы с классическим машинным обучением. Возможно, для вас было удивительно, что область, про которую так много говорят и активно внедряют — это всего лишь алгоритмы для аппроксимации целевой функции с помощью размеченных или неразмеченных данных. Где же тут искусственный интеллект, спросите вы? Обучение с учителем, где вам дана выборка с параметрами на входе и то, что вы бы хотели получить на выходе, действительно не выглядит какой-то магией.

Другое дело — обучение с подкреплением, или reinforcement learning.

Представьте, что вы только что родились в мире игры DOOM. Всё, что вы видите — это RGB изображение разрешением 320х200. Вы обнаруживаете, что можете совершать несколько действий, которые называются "up", "down", "left", "right", "left_turn", "right_turn" и "shoot". Пробуя эти действия, вы замечаете, что они влияют на изображение. Ещё есть некое число "score", которое вам очень хочется максимизировать. В какой-то момент вы умираете и возраждаетесь в начале игры.

После нескольких тысяч игр вы начинаете понимать, по каким законам существует этот мир и как увеличивать score. Ура! Вы (то есть ваш агент) обучились. Хотите посмотреть, как он играет? Пожалуйста! 

Оказывается, некоторые задачи из реального мира можно свести к такой формулировке: агент стремится максимизировать итоговый score, получая за свои действия очки наград и штрафов. рассмотрим пример агента, играющего на бирже. Его рецепторы: новости в твиттере, котировки валют, действия других игроков. Его действия: продажа и покупка акций. Его очки наград: количество заработанных денег. 

А если агент — это пилот автомобиля? Тогда его рецепторы — камера видеорегистратора. Действия: поворот руля и нажатие педалей. Очки наград выдаются за движение в правильном направлении, очки штрафов — за съезд с трассы, превышение скорости, столкновения с другими автомобилями.

Исследователи в этой области стараются найти один универсальный алгоритм для решения всех задач в такой постановке. И некоторые успехи уже есть: алгоритм AlphaZero способен всего за 24 часа обучиться играть в шахматы, cёги (японские шахматы) и Go. В каждой из игр он побеждает не только человека, но и лучшие программы. И это при том, что из данных у него есть только правила игры.

Как обучить агента играть в игру или управлять автомобилем?

За время выездного интенсива вы получите ответ на этот вопрос. Для этого мы за 3 дня:

  • Узнаем, как программировать свёрточные нейронные сети;
  • Рассмотрим самые популярные подходы: генетические алгоритмы, Crossentropy method, Imitation learning, Q-learning (SARSA), Policy gradients и Actor-Critic;
  • Напишем сеть для распознавания рукописных букв на фреймворке PyTorch;
  • Обучим агента играть в DOOM, Pac-Man или Dusk Drive - на ваш выбор.

Пройдя интенсив, вы научитесь:

  1. конструировать и обучать нейронные сети
  2. обучать агента с помощью алгоритмов RL
  3. попробуете свои силы в трех соревнованиях

Преподаватель 

Игорь Слинько

Data Scientist в Mail.ru Group. Преподаватель факультета компьютерных наук. Разрабатывал и читал "Экспресс-курс Машинного обучения". Образование: Московский физико-технический институт, Школа анализа данных Яндекса.

 Основные темы программы


Neural Networks:
  • Математическая модель нейрона
  • Функции потерь: бинарная кросс-энтропия, SoftMax
  • Fully connected networks
  • Градиентный спуск (Adam)
  • Convolutional networks
  • Нормализация данных и слоев, регуляризация, dropout

Reinforcement Learning:
    • Genetic algorithms
    • Crossentropy method
    • Imitation learning
    • Q-learning (SARSA) with convolutional neural networks
    • Policy gradients (REINFORCE) and actor-critic

На практике будут рассмотрены задачи:
Pac-Man, Dusk-Drive, Doom Defend The Center, Cartpole-v0

Начальные требования

Программирование:

  • Python3
  • Numpy
  • Менеджеры пакетов conda, pip

Machine Learning:

  • Понятия классификации и регрессии
  • Что такое mean squared error, logistic loss (cross entropy loss)
  • Training/test error, overfitting

Место проведения занятий и расписание

Выездной интенсив будет проходить в Учебном центре "Вороново" (40 км от МКАД по Калужскому шоссе). Проезд, проживание и питание входят в стоимость программы.
Выезд из Москвы 20 апреля в 10:00. Отъезд из учебного центра в Москву 22 апреля в 17:00.
Каждый день запланированы 4 пары, а также самостоятельная работа.

 

24

академических часа

30 000

рублей

По итогам программы выдается Удостоверение о повышении квалификации установленного НИУ ВШЭ образца
 

 

Подать заявку