Коллоквиум ФКН «Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek»

Мероприятие завершено

Панов Александр Игоревич
к.ф.-м.н., директор Центра когнитивного моделирования МФТИ и лаборатории когнитивных систем ИИ в AIRI

11 февраля 16:20 - 17:40

Докладчик: Панов Александр Игоревич, к.ф.-м.н., директор Центра когнитивного моделирования МФТИ и лаборатории когнитивных систем ИИ в AIRI.

Тема: Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek

Аннотация: В последнее время обучение с подкреплением является не только самодостаточным методом поиска стратегии для различных типов марковских процессов, но и служит признанным эффективнм инструментом дообучения больших (базовых) моделей. В докладе мы рассмотрим то, как устроена комбинация обучения с учителем (или самообучения) и адаптации под дополнительный сигнал вознаграждения. Разберем, как этот процесс работает для языковых моделей и для мультимодальных архитектур. Остановимся также на робототехнических приложениях с использованием современных поведенческих моделей.

Дата

11 февраля, 2025 г. 16:20

В статье упомянуты

Факультет компьютерных наук

Коллоквиум ФКН «Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek»

Панов Александр Игоревич к.ф.-м.н., директор Центра когнитивного моделирования МФТИ и лаборатории когнитивных систем ИИ в AIRI

Панов Александр Игоревич
к.ф.-м.н., директор Центра когнитивного моделирования МФТИ и лаборатории когнитивных систем ИИ в AIRI