Семинар BayesLab «Термодинамика стохастического градиентного спуска при обучении нейронных сетей»
Ильдус Ильдус Садртдинов, преподаватель Факультета компьютерных наук выступит с докладом по Термодинамике стохастического градиентного спуска в обучении нейронных сетей.
Во вторник, 27 мая 2025 г. в 18:00 Ильдус Садртдинов, преподаватель Факультета компьютерных наук, выступит с докладом «Термодинамика стохастического градиентного спуска при обучении нейронных сетей».
Мы представляем термодинамическую интерпретацию стационарного поведения стохастического градиентного спуска (SGD) при фиксированных значениях темпа обучения (LR) в задаче обучения нейронных сетей. Мы показываем, что SGD неявно минимизирует функцию свободной энергии F = U - TS, балансируя между функцией потерь на обучающей выборке U и энтропией распределения весов S, при этом температура T определяется значением LR. Такой подход предлагает новый взгляд на то, почему высокие LR препятствуют схождению к минимуму функции потерь и как различные значения LR приводят к стабилизации на разных уровнях функции потерь. Мы эмпирически подтверждаем применимость концепции свободной энергии как для недопараметризированных (UP), так и для перепараметризированных (OP) моделей. UP-модели стабильно следуют принципу минимизации свободной энергии, при этом температура монотонно возрастает с увеличением LR, тогда как в OP-моделях при малых значениях LR температура падает до нуля, из-за чего SGD непосредственно минимизирует функцию потерь и сходится к оптимуму. Мы объясняем это расхождение различиями в отношении сигнал/шум стохастических градиентов вблизи оптимума, что подтверждается как на игрушечных примерах, так и на экспериментах с нейронными сетями.
Выступление пройдёт в аудитории 319 корпуса S НИУ ВШЭ (Покровский бульвар, д. 11) с возможностью онлайн-участия в Zoom. Начало состоится в 18:00 по Московскому времени.
Преподаватель Факультета компьютерных наук НИУ ВШЭ