• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Новости

Десять статей исследователей ФКН приняты на конференцию NeurIPS 2021

Десять статей исследователей ФКН приняты на конференцию NeurIPS 2021

35-ая конференция NeurIPS 2021 (Conference on Neural Information Processing Systems) — одна из крупнейших в мире конференций по машинному обучению и нейронным сетям, которая проводится с 1989 года. В 2021 году конференция проходит онлайн 6-14 декабря.

В этом году на NeurIPS были приняты десять статей исследователей ФКН:

Мы попросили нескольких авторов рассказать о своих статьях:

Лобачева Екатерина Максимовна,
Центр глубинного обучения и байесовских методов: Заместитель заведующего центром
Статья «On the Periodic Behavior of Neural Network Training with Batch Normalization and Weight Decay»

При обучении современных нейронных сетей нужно учитывать множество тонкостей, которые связаны как со структурой самих сетей, так и с методами их обучения. В нашей статье On the Periodic Behavior of Neural Network Training with Batch Normalization and Weight Decay мы исследуем необычное поведение сетей с одновременным использованием слоев нормализации и L2-регуляризацией весов при обучении. Это два очень распространенных приема, использующиеся практически во всех современных нейронных сетях, поэтому понимание особенностей их взаимодействия важно для решения практических задач. Суть работы состоит в том, что при достаточно долгом обучении нейросети функция ошибки вместо монотонного снижения начинает вести себя периодически: периоды сходимости нейросети прерываются резкими развалами, после которых процесс обучения начинается практически заново. В нашей статье мы очень подробно исследуем причины такого поведения, а также показываем, в каких ситуациях оно может встречаться.

Рябинин Максим Константинович,
Научно-учебная лаборатория компании Яндекс: Младший научный сотрудник
Статья «Distributed Deep Learning in Open Collaborations»

В этой статье мы предложили практический подход для распределённого обучения нейросетей, в котором могут участвовать добровольцы со всего мира. Данный подход набирает всё большую актуальность в последнее время: объём вычислений, необходимый для самых больших моделей, зачастую требует доступа к дорогим суперкомпьютерам, а он есть не у каждого желающего. С учётом того, что такие модели порой не оказываются в открытом доступе, сложности с воспроизведением результатов исследований негативно сказывается на научном прогрессе в машинном обучении.
Предложенный в работе метод под названием Distributed Deep Learning in Open Collaborations (DeDLOC) позволяет эффективно агрегировать результаты распределённого обучения даже в ситуации сравнительно медленного соединения и нестабильного участия узлов: нереалистично ожидать, что компьютер каждого участника обладает гигабитным подключением и будет подключен к сети 24/7. Пожалуй, один из самых интересных результатов работы — успешный эксперимент по обучению модели представлений для бенгальского языка с участием 40 настоящих добровольцев. Совместно с ними мы получили нейросеть, качество понимания языка которой сравнимо с самыми мощными кросс-языковыми моделями, обученными на кластере в сотни видеокарт.

Наумов Алексей Александрович,
Международная лаборатория стохастических алгоритмов и анализа многомерных данных: Заведующий лабораторией
Статья «Tight High Probability Bounds for Linear Stochastic Approximation with Fixed Stepsize»

Многие популярные алгоритмы машинного обучения, такие как стохастический градиентный спуск в задаче регрессии, на самом деле представляют собой алгоритмы стохастической аппроксимации. В подобных алгоритмах мы пытаемся найти нули некоторой функции, вместо значений которой имеется доступ лишь к случайным величинам, являющимися несмещенными оценками значений данной функци. В своей статье мы рассмотрели случай линейной стохастической аппроксимации (LSA), приближающей решение системы линейных уравнений, основываясь на случайных реализациях матрицы системы и ее правой части.
Нам удалось получить оценки на ошибку линейной стохастической аппроксимации при более слабых предположениях, чем были известны в литературе. Мы впервые показали, что при таких предположениях возможна только полиномиальная концентрация для ошибки на n-м шаге LSA, причем ее порядок зависит от шага алгоритма. Примеры, приведенные в нашей статье, показывают, что данный результат не может быть улучшен без дополнительных предположений на поведение наблюдаемых случайных матриц. Это показывает, что оценки, полученные с помощью процедуры линейной стохастической аппроксимации, вообще говоря, отличаются тяжелыми хвостами. Похожее поведение также типично для итераций стохастического градиентного спуска.