Семинар «Исследование подходов добавления памяти к нейросетевым моделям семейства Transformer для улучшения качества работы таких моделей на различных задачах обработки естественного языка»

Мероприятие завершено

30 ноября 2023 г. в 15:30 в рамках семинара "Математические модели информационных технологий" департамента анализа данных и искусственного интеллекта и МЛ "Интеллектуальных систем и структурного анализа" под руководством С.О. Кузнецова состоится в формате онлайн конференции выступление Сагировой А.Р. по теме: «Исследование подходов добавления памяти к нейросетевым моделям семейства Transformer для улучшения качества работы таких моделей на различных задачах обработки естественного языка»

Тема: «Исследование подходов добавления памяти к нейросетевым моделям семейства Transformer для улучшения качества работы таких моделей на различных задачах обработки естественного языка»

Докладчик: Сагирова Алсу Рафаэлевна (Московский физико-технический институт,
лаборатория нейронных систем и глубокого обучения)

Аннотация: Нейросетевые модели на основе архитектуры Transformer в настоящее время широко применяются для решения различных задач обработки естественного языка. С увеличением сложности таких моделей и ростом длины входных последовательностей появляется необходимость в создании подходов для ускорения обучения языковых моделей. Эти подходы включают предварительное обучение моделей на больших объемах неразмеченных данных, уменьшение вычислительной сложности моделей за счет модификаций архитектуры Transformer, и создание мультизадачных моделей.

Однако существующие методы улучшения производительности популярных языковых моделей семейства Transformer не решают проблему учёта глобальных контекстных связей между различными частями текста, зачастую находящимися на большом расстоянии друг от друга. В нейробиологии одной из теоретических концепций, описывающих процессы логических рассуждений и принятия решений, является механизм рабочей памяти.

В области машинного обучения также существует направление исследований, связанное с расширением нейронных сетей за счёт использования памяти. В частности, внешняя память, добавленная к языковым моделям, успешно используется как хранилище для сжатых представлений текста или как хранилище общего назначения для глобальных представлений или копий локальных представлений. Существующие методы аугментации моделей памятью записывают в неё неинтерпретируемые векторные представления, что ограничивает возможности анализа содержимого памяти с точки зрения естественного языка. Ещё одним недостатком существующих способов формирования памяти для языковых моделей является необходимость изменения архитектуры основной модели для осуществления операций записи и чтения в память во время обучения и генерации предсказаний.

В данной диссертационной работе исследуются методы добавления интерпретируемой рабочей памяти к языковым моделям на основе архитектуры Transformer, а также оценивается эффективность этих моделей с памятью при решении различных задач обработки естественного языка. Экспериментальные результаты подтверждают полезность добавления памяти к моделям семейства Transformer для улучшения качества предсказаний и демонстрируют релевантность содержимого памяти рассматриваемым задачам.

Ссылка на видеовстречу: https://telemost.yandex.ru/j/97530554124025395957040803975864959949

Четверг, 30 ноября, 15 30

Дата

30 ноября 15:30

В статье упомянуты

Международная лаборатория интеллектуальных систем и структурного анализа