Команда Yandex Research приглашает вас принять участие в научном митапе, который пройдёт 7 декабря с 16:00 до 18:30.
Yandex Research — это исследовательская группа внутри Яндекса, которая занимается фундаментальными проблемами в важнейших областях computer science и искусственного интеллекта, таких как компьютерное зрение, Natural Language Processing, речевые технологии, краудсорсинг, поиск и рекомендации. В рамках митапа исследователи из Yandex Research и научной лаборатории Яндекса на Факультете Компьютерных Наук НИУ ВШЭ расскажут об интересных задачах, которыми они занимаются, а ещё о том, как стать частью команды.
Регистрация
Программа митапа
Андрей Малинин. Неопределенность в структурных предсказаниях
Оценка неопределенности важна для обеспечения безопасности и надежности систем искусственного интеллекта. В то время как большинство исследований в этой области были сосредоточены на задачах неструктурированного прогнозирования, мало работ было посвящено изучению общих подходов к оценке неопределенности для структурированного прогнозирования. Наша работа направлена на исследование оценки неопределенности для задач авторегрессионного структурированного прогнозирования в рамках единой унифицированной и интерпретируемой вероятностной ансамблевой структуры. Мы рассматриваем: оценку неопределенности в структурном прогнозировании, как на уровне последовательности, так и на уровне отдельных токенов. Дополнительно, мы проводим анализ как теоретических, так и практических проблем, связанных с получением этих оценок неопределенности. Мы предоставляем базовые показатели для обнаружения ошибок на уровне токенов и последовательностей, а также обнаружения вне доменных входных данных на уровне последовательностей в наборах данных англо-французского перевода WMT’14 и англо-немецкого перевода WMT’17 и распознавания речи LibriSpeech.
Однако ансамбли вычислительно дороги как для построения, так и для вывода. Таким образом, мы, кроме того, исследуем методы эффективной генерации и применения ансамблей. В частности, мы описываем метод называемый "Sequence Ensemble Distribution Distillation" - метод дистилляции, который позволяет одной модели полностью эмулировать исходный ансамбль при низких вычислительных затратах и затратах памяти.
Станислав Морозов. Big GANs Are Watching You: о сегментации объектов без учителя с помощью готовых генеративных моделей
Сбор данных попиксельной разметки довольно сложен, поэтому задачи визуального понимания без учителя в настоящее время являются активной темой исследований. В частности, несколько современных методов, основанных на генеративных моделях, дали многообещающие результаты для сегментации объектов и детектирования значимых объектов на изображении. Однако, поскольку генеративные модели, как известно, нестабильны и чувствительны к гиперпараметрам, использование этих методов может быть сложным и трудоемким. В этой работе мы вводим альтернативный, гораздо более простой способ использования генеративных моделей для сегментации объектов без учителя. Во-первых, мы исследуем латентное пространство BigBiGAN, современной генеративно-состязательной сети, выученной без учителя, параметры которой находятся в открытом доступе. Мы демонстрируем, что маски, выделяющие основной объект на изображениях, сгенерированных GAN-ом, могут быть получены автоматически с помощью BigBiGAN. Затем эти маски используются для обучения дискриминативной модели сегментации. Будучи очень простым и легко воспроизводимым, наш подход обеспечивает конкурентоспособность на основных наборах данных в обучении без учителя.
Антон Осокин. OS2D: Обнаружение объектов по одной демонстрации и за одну стадию
В этом выступлении мы поговорим о задаче обнаружения на изображениях объектов новых классов, определенных одной демонстрацией (one-shot detection). В отличие от стандартной задачи обнаружения объектов, классы объектов на этапах обучения и тестирования не пересекаются. В статье Osokin et al., (2020) была разработана система OS2D, которая выполняет распознавание класса и локализацию объекта одновременно в один этап (без разделения на два этапа как в методах вида Faster R- CNN). В системе OS2D используются сопоставление локальных признаков, извлеченных из целевого изображения и из изображения класса, при помощи корреляции, геометрическую модель преобразования в виде нейросети для выравнивания класса относительно локальной позиции на изображении, билинейную интерполяцию для вычисления силу сопоставления класс и локальной позиции. Все компоненты модели OS2D дифференцируемы, что позволяет вычислять полный градиент при помощи алгоритма обратного распространения ошибок и проводить совместное обучение всех компонент модели. В проведенных экспериментов модель OS2D опередила альтернативные модели по качеству работу, причем разница была особенно велика при обнаружении новых классов, существенно отличающихся от обучающей выборки (например, при обнаружении зубной пасты при обучении на товарах из продуктовых магазинов).
(Osokin et al.; 2020) Anton Osokin, Denis Sumin, Vasily Lomakin. OS2D: One-Stage One- Shot Object Detection by Matching Anchor Features. ECCV, 2020,
https://arxiv.org/pdf/2003.06800.pdf ; https://github.com/aosokin/os2d
Максим Рябинин. GraphGlove: графовые представления слов, обучаемые без учителя
В настоящий момент область NLP тяжело представить без векторов слов, обучаемых на неразмеченных корпусах текстов. Хотя сам по себе метод их обучения прост, а вещественные векторы легко применять как вход для других моделей, такие представления не учитывают иерархическую природу языка и ограничены геометрией выбранного векторного пространства. В своём выступлении я расскажу про новый метод представления слов: мы рассматриваем их как вершины графа, обучая веса и вероятности его рёбер. Оказывается, что помимо лучшего качества по сравнению с векторными моделями полученный граф обладает рядом интересных свойств: в частности, его иерархическая структура близка к построенным людьми вручную базам связей слов.
Валентин Хрульков. Сжатие NLP моделей с помощью Tensor Train разложения
Одним из основных блоков в современных NLP моделях (и многих других) являются embedding layers - слои, которые отображают дискретные токены в векторы. В случае, когда мощность множества токенов большая, матрица весов в таком слое может занимать значительную часть всех весов модели, что, интуитивно, кажется не очень практичным. Мы обсудим как можно применить современные алгоритмы компактного представления тензоров, в частности Tensor Train разложение, для эффективного, параметризуемого, представления таких слоев.