Центр искусственного интеллекта НИУ ВШЭ

Искусственный интеллект в культурно-языковом пространстве

В задачах искусственного интеллекта естественный язык занимает огромное место – как часть инструментария, моделирующего сознание человека. В то же время, естественный язык – неотъемлемая часть человеческой культуры, которая сама нуждается в заботе и сохранении, а значит, исследовании и документировании. Эта задача в целом настолько обширна, что без применения искусственного интеллекта она оказывается неразрешимой. В ней есть ключевые области, где естественный язык оказывается объектом внимания искусственного интеллекта, а не его составляющей.

Исследование включает в себя фундаментальные научные задачи, направленные на опережающее развитие генеративного искусственного интеллекта, а также комплекс прикладных задач, объединяющих общественно значимые инициативы в области сохранения языков и культуры России, цифровизации и сохранения российского культурно-исторического наследия, распространения русского языка в глобальном мире.

В рамках проекта проводятся исследования по четырем направлениям:

1)   Применение лингвистической теории дискурса в задачах генерации текста на естественном языке

2)   Корпуса данных и инструменты автоматического анализа малоресурсных языков России

3)   Автоматическое распознавание текстов старой орфографии и допетровской графики

4)   Автоматизированные подходы к анализу речи билингвов и изучающих русский язык

Генеративные модели в последние годы получили толчок в развитии. Модели, основанные на архитектуре «Трансформер» – GPT и его более поздних модификаций GPT-2 и GPT-3, а также обученная на данных русского языка командой Сбера модель ruGPT-3 показывают удивительные успехи в генерации текстов разных жанров и стилей. Основными проблемами порождаемых текстов является их несвязанность на уровне дискурса. Еще больше проблем возникает на более высоком уровне, связанном с согласованностью между предложениями. Решением этого класса проблем должно стать комбинирование базовых представлений лингвистической теории – прежде всего теории дискурса – для дообучения и настройки генеративных моделей и получения наилучших результатов: улучшения дискурсивной структуры и, как следствие, логической связности генерируемого текста.

Разработка инструментов автоматического анализа малоресурсных языков народов России связана прежде всего с наблюдающимся негативным трендом в области автоматической обработки естественных языка, проявляющимся в неравномерности развития технологий для разных языков. Большая часть современных исследований в области обработки естественного языка сосредоточена на работе с данными 10-20 наиболее распространенных языков. Развитие технологий искусственного интеллекта для языков народов России могло бы принципиально изменить эффективность вкладываемых усилий и в документацию языков, и в активизацию их использования носителями.

Проблема автоматического распознавания текстов старой орфографии и допетровской графики связана прежде всего с нерешенной до сих пор задачей оцифровки и распознавания историко-культурного наследия. Даже для распознавания дореволюционной орфографии на сегодняшний день не существует удовлетворительно работающих моделей, основанных на языковых данных и текстах этого периода. В результате огромные массивы документов – книг, журналов, газет, редких изданий, уникальных изданий остаются либо вообще неоцифрованными, либо существуют не в машиночитаемых форматах. Таким образом, тормозится научный обмен, популяризация культурного наследия, развитие новых подходов в гуманитарных дисциплинах, основанных на больших данных. Еще одно направление – это распознавание архивных документов, имеющих внутреннюю структуру – таблиц, учетной документации, формулярных списков, массовых исторических источников. Использование инструментов искусственного интеллекта для распознавания такого рода документов открывает доступ к историческим большим данным, которые станут основой для нового уровня историко-экономических обобщений и теоретических построений.

Разработка автоматизированных подходов к речи билингвов и изучающих русский язык задается социально-гуманитарной миссией продвижения и сохранения русского языка в чужой языковой среде. В мире образовалась большая диаспора людей, говорящих по-русски, но живущих за границей России: в странах дальнего зарубежья, а также в странах ближнего зарубежья – там, где доминирующим является не русский язык. Они являются билингвами, поскольку владеют и доминантным языком соответствующей страны, и (в разной степени) русским. В этой среде имеется активный запрос к освоению русского как крупного мирового языка – причем не только в его устной, но и письменной форме. В удовлетворении этого запроса как важнейшей социальной задачи по продвижению русского языка и культуры значимую роль могут играть технологии искусственного интеллекта. Одна из ключевых прикладных задач в этой области состоит в создании системы по исправлению ошибок в русском языке у билингвов и изучающих русский язык. Традиционные подходы к решению этой задачи сталкиваются с критической недостачей данных для обучения алгоритмов машинного обучения и нейросетевых моделей. Задачу можно решить с помощью адаптации моделей, созданных для английского языка, к русскому языковому материалу, а также комбинации технологий искусственного интеллекта с модулями лингвистического анализа для идентификации и исправления основных типов ошибок.

Команда проекта

Мороз Георгий Алексеевич

Младший научный сотрудник

Нестеренко Любовь Владимировна

Младший научный сотрудник

Сериков Олег Алексеевич

Стажер-исследователь