• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар Bayes Lab «Термодинамика стохастического градиентного спуска при обучении нейронных сетей»

Мероприятие завершено

Ильдус Садртдинов
аспирант департамента больших данных и информационного поиска ФКН

27 мая 2025 в 18:00

Докладчик: Ильдус Садртдинов, ФКН ВШЭ

Тема: «Термодинамика стохастического градиентного спуска при обучении нейронных сетей»

Аннотация: Мы представляем термодинамическую интерпретацию стационарного поведения стохастического градиентного спуска (SGD) при фиксированных значениях темпа обучения (LR) в задаче обучения нейронных сетей. Мы показываем, что SGD неявно минимизирует функцию свободной энергии F = U - TS, балансируя между функцией потерь на обучающей выборке U и энтропией распределения весов S, при этом температура T определяется значением LR. Такой подход предлагает новый взгляд на то, почему высокие LR препятствуют схождению к минимуму функции потерь и как различные значения LR приводят к стабилизации на разных уровнях функции потерь. Мы эмпирически подтверждаем применимость концепции свободной энергии как для недопараметризированных (UP), так и для перепараметризированных (OP) моделей. UP-модели стабильно следуют принципу минимизации свободной энергии, при этом температура монотонно возрастает с увеличением LR, тогда как в OP-моделях при малых значениях LR температура падает до нуля, из-за чего SGD непосредственно минимизирует функцию потерь и сходится к оптимуму. Мы объясняем это расхождение различиями в отношении сигнал/шум стохастических градиентов вблизи оптимума, что подтверждается как на игрушечных примерах, так и на экспериментах с нейронными сетями.

Место проведения: Покровский бульвар, 11, ауд. S319 + онлайн

Ссылка для подключения