Семинар BayesLab. Доклад Ильдуса Садртдинова: Куда нас ведёт Large Learning Rate?
Учёный расскажет о результатах исследования, посвещённого перспективам развития нейронных сетей с высоким начальным темпом обучения.
Во вторник, 19 ноября 2024 г. в 18:00, Ильдус Садртдинов, преподаватель Факультета компьютерных наук НИУ ВШЭ, выступит с докладом «Куда нас вёдет Large Learning Rate?», посвящённым перспективам нейронных сетей с высоким начальным темпом обучения (Large Learning Rate). Выступление подготовлено на основании новой статьи, написанной исследователем для конференции NeurIPS 2024 совместно с Максимом Кодряном, младшим научным сотрудником Центра глубинного обучения и байесовских методов, Эдуардом Поконечным, участником BayesGroup, Екатериной Лобачёвой, постдоком Монреальского университета, а также Дмитрием Петровичем Ветровым, профессором Constructor University и профессором-исследователем ФКН НИУ ВШЭ.
Считается, что обучение нейронных сетей с высоким начальным темпом обучения (англ. learning rate, LR) улучшает их обобщающую способность. Продолжая серию работ, посвященных изучению данного эффекта, мы проводим эмпирическое исследование в контролируемых условиях, сосредотачиваясь на двух ключевых вопросах: 1) каким должен быть начальный LR, чтобы добиться модели с оптимальным качеством, и 2) чем принципиально отличаются модели, обученные с различными LR. Мы выяснили, что лишь узкий диапазон значений LR, немного превышающих порог сходимости, приводит к оптимальному качеству после дальнейшего дообучения с низким LR или применения методов усреднения весов. Исследование геометрических характеристик полученных оптимумов показывает, что данный диапазон LR позволяет находить область пространства весов, содержащую исключительно качественные минимумы. Более того, такие значения LR выделяют из данных разреженное множество признаков, концентрируясь на наиболее релевантных для решаемой задачи. В отличие от этого, слишком низкие значения LR ведут к нестабильным оптимумам и попыткам выучить все возможные признаки одновременно, что негативно сказывается на обобщающей способности. Напротив, чрезмерно большие значения LR не позволяют локализовать область с качественными решениями и затрудняют извлечение значимых признаков из данных.
Выступление пройдёт в аудитории 325 корпуса S НИУ ВШЭ (Покровский бульвар, д. 11) с возможностью онлайн-участия в Zoom. Начало состоится в 18:00 по Московскому времени.
Преподаватель Факультета компьютерных наук НИУ ВШЭ