Серия лекций от Yandex Research и научно-учебной лаборатории компании Яндекс
10 марта Yandex Research и научно-учебная лаборатория компании Яндекс проведут серию мини-лекций в один день.
17:30
Чем занимается лаборатория компании Яндекс и Yandex Research?
17:40
Дмитрий Емельяненко, стажер-исследователь лаборатории компании Яндекс ФКН: Рассказ по мотивам статьи BPE-dropout: simple and effective subword regularization
18:10
Антон Синицин, разработчик компании Яндекс: Editable neural networks
18:40
Андрей Малинин, исследователь лаборатории компании Яндекс: Оценка неопределенности в асторегрессивных моделях
19:10
Валентин Хрульков, исследователь Yandex Research: Гиперболические нейронные сети для классификации изображений
19:40
Максим Рябинин, исследователь Yandex Research: Learning@home: обучение огромных нейросетей на домашних компьютерах волонтеров
Подробнее:
Дмитрий Емельяненко, стажер-исследователь лаборатории компании Яндекс ФКН
"Рассказ по мотивам статьи BPE-dropout: simple and effective subword regularization"
Мы предлагаем внести небольшое изменение в широко используемый алгоритм препроцессинга текста (Byte Pair Encoding), и показываем что оно позволяет улучшить качество машинного перевода в условиях ограниченных данных, а также устойчивость нейросетей к незнакомым словам и словам с опечатками
Антон Синицин, разработчик компании Яндекс
"Editable neural networks"
В настоящее время нейронные сети используются во многих задачах, от классификации изображений, машинного перевода до распознавания лиц и self-driving. Часто, одна ошибка модели может привести к катастрофическим последствиям (финансовые и репутационные потери, смерть и т.д.). Поэтому очень важно уметь быстро исправлять замеченные ошибки. Я расскажу про статью, в которой мы исследовали проблему редактирования нейронных сетей, а именно - как можно эффективно отредактировать модель на семпле с наименьшими потерями качества на других элементах.
Андрей Малинин, исследователь лаборатории компании Яндекс
"Оценка неопределенности в асторегрессивных моделях"
Оценка неопределенности важна для обеспечения надежности систем искусственного интеллекта, особенно в приложениях, связанных с высоким риском. Хотя в последнее время в этой области был достигнут значительный прогресс, большинство исследований было сосредоточено на задачах классификации изображений и регрессионных задачах. Целью данной работы является исследование оценки неопределенности для таких структурированных задач, как перевод и распознавание речи, в рамках единой унифицированной и интерпретируемой вероятностной структуры на основе ансамблей. Мы рассматриваем оценку неопределенности как на уровне отдельных слов, так и на уровне полной последовательности, предоставляем интерпретации и применение различных мер неопределенности и обсуждаем проблемы, связанные с их получением. В данной работе также исследуются практические проблемы, связанные с получением оценок неопределенности для авторегрессивных моделей, и приводятся бэйслайны для задач обнаружения ошибок на уровне слов, отбраковки предсказаний на уровне последовательностей и обнаружения внедоменных входных данных на уровне последовательностей при помощи ансамблей авторегрессивнных моделей, обученных на наборах данных WMT'14 англо-французский и WMT'17 англо-немецкий перевод и распознавание речи LibriSpeech.
Валентин Хрульков, исследователь Yandex Research
"Гиперболические нейронные сети для классификации изображений"
Одним из наиболее успешных подходов для моделирования иерархических данных является построений их вложении в гиперболическое пространство - пространство с отрицательной кривизной, например, шар Пуанкаре. Мы обсудим каким образом можно применить эти же идеи для обучения нейронных сетей для задач few-shot learning и проанализируем насколько “гиперболичными” являются множества картинок.
Максим Рябинин, стажер-исследователь лаборатории Яндекс ФКН
"Learning@home: обучение огромных нейросетей на домашних компьютерах волонтеров"
За последние год-два набрал популярность простой рецепт получения модели рекордного качества для многих задач deep learning: собрать как можно больше данных из интернета и обучить на них нейросеть с огромным числом параметров (миллионы и даже миллиарды) без существенных изменений алгоритма или архитектуры. Оставим резонный вопрос о полезности таких исследований за рамками разговора и вместо этого оценим их требования с точки зрения ресурсов. Может ли энтузиаст или учёный без доступа к многомиллионным кластерам обучить за разумное время модель, которая даже для обработки одного примера требует 4-8 серверных видеокарт последнего поколения?
В статье, которую я представлю, предлагается способ решения такой задачи: по аналогии с научными симуляциями можно использовать компьютеры сотен и тысяч добровольцев, соединенные через интернет и обладающие сравнительно небольшой мощностью поодиночке. Расскажу об архитектурных и алгоритмических изменениях, потребовавшихся при переходе к volunteer computing из-за ненадёжных разнородных компьютеров и медленного соединения. В конце доклада приведу результаты экспериментов, демонстрирующие преимущества новой схемы над другими актуальными методами распределенного обучения даже при небольшой сетевой задержке.
Когда? 10 марта
Где? Покровский бульвар 11, ауд. R401