Создание нейросетевых моделей и наборов данных, мотивированных лингвистической теорией
Актуальность проекта
Наращивание параметров предобученных языковых моделей не продвигает нас к решению задачи понимания естественного языка (Natural Language Understanding), поскольку такие лингвистические модели подменяют понимание манипуляциями со словоформами. Разрыв между языковой моделью и системой языка формулируется следующим образом: языковая система состоит из соотношения форм и их значений. Обучающие данные, используемые языковыми моделями – это только формы без значений.
Цель проекта
Создание обучающих наборов данных, снабженных экспертной лингвистической разметкой, сфокусированной на наиболее проблемных местах современных языковых моделей: дискурсивная связность, различия типов речевых актов, глубинная синтаксическая структура, обеспечивающая вариативность языковых выражений с общей семантикой.
Преимущества предложенного решения:
-
Возможность внедрить лингвистическую информацию в актуальные архитектуры нейросетей
Разрабатываемые наборы данных будут содержать лингвистическую информацию, определяющую значимые компоненты коммуникативной ситуации, структуры нарратива, языковой вариативности – информацию, очевидную для человека, однако пока что практически не воспроизводимую на уровне искусственного моделирования.
-
Новые фундаментальные и прикладные результаты в области автоматической обработки естественного языка
Полученные нейросетевые модели могут быть использованы для улучшения разговорных и генеративных чат-ботов, для автоматического анализа сложных нарративных структур, для поиска парафраз и синтаксических синонимов.
Значение результатов проекта ↓
Проект реализован совместно с партнером
Команда проекта
Руководитель проекта
Доцент
Стажер-исследователь
Менеджер