Центр искусственного интеллекта НИУ ВШЭ

Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией

Прорывные успехи языковых моделей, обученных на огромном количестве параметров (BERT, GPT2/3, RuGPT), ставят перед научным сообществом фундаментальные вопросы о направлениях дальнейшего технологического развития. Однако наращивание параметров предобученных моделей не продвигает нас к решению задачи понимания естественного языка (Natural Language Understanding), поскольку такие лингвистические модели подменяют понимание манипуляциями со словоформами. Разрыв между языковой моделью и системой языка формулируется следующим образом: языковая система состоит из соотношения форм и их значений. Обучающие данные, используемые языковыми моделями – это только формы без значений.

В ходе проекта предполагается создание обучающих наборов данных, снабженных экспертной лингвистической разметкой, сфокусированной на наиболее проблемных местах современных языковых моделей: дискурсивная связность, различия типов речевых актов, глубинная синтаксическая структура, обеспечивающая вариативность языковых выражений с общей семантикой.

Создание лингвистически богатых наборов дает возможность внедрить лингвистическую информацию в актуальные архитектуры нейросетей, получить новые фундаментальные и прикладные результаты в области автоматической обработки естественного языка.

Разрабатываемые наборы данных будут содержать лингвистическую информацию, определяющую значимые компоненты коммуникативной ситуации, структуры нарратива, языковой вариативности – информацию, очевидную для человека, однако пока что практически не воспроизводимую на уровне искусственного моделирования. Полученные нейросетевые модели смогут быть использованы для улучшения разговорных и генеративных чат-ботов, для автоматического анализа сложных нарративных структур, для поиска парафраз и синтаксических синонимов.

Фундаментальное значение результатов проекта определяется, во-первых, интересом к сближению лингвистической науки и автоматическому анализу естественного языка, который в последнее время самым активным образом проявляется и в лингвистическом, и в NLP-сообществах, а во-вторых, выходом на решения нового уровня, преодолевающие разрыв между искусственным и естественным интеллектом в области естественного языка.

Проект реализуется совместно со Сбером.