Искусственный интеллект в культурно-языковом пространстве

Актуальность проекта

В задачах искусственного интеллекта естественный язык занимает огромное место – как часть инструментария, моделирующего сознание человека. В то же время, естественный язык – неотъемлемая часть человеческой культуры, которая сама нуждается в заботе и сохранении, а значит, исследовании и документировании. Эта задача в целом настолько обширна, что без применения искусственного интеллекта она оказывается неразрешимой. В ней есть ключевые области, где естественный язык оказывается объектом внимания искусственного интеллекта, а не его составляющей.

Задачи проекта

Фундаметнальные научные задачи направлены на опережающее развитие генеративного искусственного интеллекта.
Прикладные задачи объединяют общественно значимые инициативы в области сохранения языков и культуры России, цифровизации и сохранения российского культурно-исторического наследия, распространения русского языка в глобальном мире.

Направления исследований

Применение лингвистической теории дискурса в задачах генерации текста на естественном языке

Исследователи проекта предлагают комбинирование базовых представлений лингвистической теории – прежде всего теории дискурса – для дообучения и настройки генеративных моделей и получения наилучших результатов: улучшения дискурсивной структуры и, как следствие, логической связности генерируемого текста.

Корпуса данных и инструменты автоматического анализа малоресурсных языков России

Большая часть современных исследований в области обработки естественного языка сосредоточена на работе с данными 10-20 наиболее распространенных языков. Развитие технологий искусственного интеллекта для языков народов России могло бы принципиально изменить эффективность вкладываемых усилий и в документацию языков, и в активизацию их использования носителями.

Автоматическое распознавание текстов старой орфографии и допетровской графики

Использование инструментов искусственного интеллекта для распознавания такого рода документов открывает доступ к историческим большим данным, которые станут основой для нового уровня историко-экономических обобщений и теоретических построений.

Автоматизированные подходы к анализу речи билингвов и изучающих русский язык

Социально-гуманитарная миссия исследования – продвижение и сохранение русского языка в чужой языковой среде. В удовлетворении этого запроса как важнейшей социальной задачи по продвижению русского языка и культуры значимую роль могут играть технологии искусственного интеллекта. Одна из ключевых прикладных задач в этой области состоит в создании системы по исправлению ошибок в русском языке у билингвов и изучающих русский язык. Задачу можно решить с помощью адаптации моделей, созданных для английского языка, к русскому языковому материалу, а также комбинации технологий искусственного интеллекта с модулями лингвистического анализа для идентификации и исправления основных типов ошибок.