Центр искусственного интеллекта НИУ ВШЭ

Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией

Проект завершен

Актуальность проекта

 

Наращивание параметров предобученных языковых моделей не продвигает нас к решению задачи понимания естественного языка (Natural Language Understanding), поскольку такие лингвистические модели подменяют понимание манипуляциями со словоформами. Разрыв между языковой моделью и системой языка формулируется следующим образом: языковая система состоит из соотношения форм и их значений. Обучающие данные, используемые языковыми моделями – это только формы без значений.

Цель проекта

Создание обучающих наборов данных, снабженных экспертной лингвистической разметкой, сфокусированной на наиболее проблемных местах современных языковых моделей: дискурсивная связность, различия типов речевых актов, глубинная синтаксическая структура, обеспечивающая вариативность языковых выражений с общей семантикой.

Преимущества предложенного решения:

  • Возможность внедрить лингвистическую информацию в актуальные архитектуры нейросетей

     

    Разрабатываемые наборы данных будут содержать лингвистическую информацию, определяющую значимые компоненты коммуникативной ситуации, структуры нарратива, языковой вариативности – информацию, очевидную для человека, однако пока что практически не воспроизводимую на уровне искусственного моделирования.

  • Новые фундаментальные и прикладные результаты в области автоматической обработки естественного языка

     

    Полученные нейросетевые модели могут быть использованы для улучшения разговорных и генеративных чат-ботов, для автоматического анализа сложных нарративных структур, для поиска парафраз и синтаксических синонимов.

Значение результатов проекта ↓

Проект реализован совместно с партнером

Команда проекта

Бонч-Осмоловская Анастасия Александровна

Доцент

Сериков Олег Алексеевич

Стажер-исследователь