Центр искусственного интеллекта НИУ ВШЭ

ИИ научили анализировать языковые системы

Исследователи Центра ИИ НИУ ВШЭ создают фреймворк языков России и модели для диалоговых систем. С помощью технологий ИИ ученые совершенствуют алгоритмы распознавания символов, а также готовят датасет для спеллчекера, работающего с текстами, которые написаны изучающими русский язык.

Photo by Max Vakhtbovych

Photo by Max Vakhtbovych

В проекте Центра ИИ «Искусственный интеллект в культурно-языковом пространстве» под руководством Анастасии Бонч-Осмоловской представлено четыре направления, каждое из которых ориентировано на работу с определенными языковыми технологиями. 


Направление “Автоматизированные подходы к анализу речи билингвов и изучающих русский язык”

В мире много разных языков, однако мы редко задумываемся о том, что один и тот же язык тоже может быть разным. Группа исследователей речи билингвов занимается русским языком, на котором говорят те, для кого русский язык не является основным. Это студенты, изучающие русский язык как иностранный, и билингвы, живущие в других странах и говорящие на русском как неосновном языке. Такие люди используют язык особенным образом, и их речь в корне отличается от речи обычных русскоязычных монолингвов. Это значит, что автоматизированные инструменты, которые помогают грамотно писать носителям и не носителям русского языка, спеллчекеры и всевозможные “умные” редакторы, должны учитывать разные аспекты. Помимо разработки подобных инструментов для иностранных говорящих, группа ученых работает над созданием представительных датасетов, включающих образцы письменной речи и социолингвистические данные, такие как доминантный язык, уровень владения русским языком, жанр текста и т. д. Такие датасеты незаменимы при машинном обучении, в том числе и при решении важных исследовательских задач в области усвоения второго языка. 


Направление “Автоматическое распознавание текстов старой орфографии и допетровской графики”

Исследователи используют возможности ИИ для улучшения оцифровки текстов. Уже давно существуют программы, которые переводят отсканированные изображения в редактируемую текстовую форму: так мы получаем книги, деловые документы, визитки в виде файлов в наших компьютерах. Это очень удобно, например, по ним можно задать поиск, не просматривая весь текст целиком.

Мы привыкли к тому, что эти программы работают хорошо: редко ошибаются, воспроизводят в текстовом файле именно то, что напечатано в книге. Но такое высокое качество доступно не для всех письменностей и не для всех языков. Обратимся к прошлому русской культуры, к XIX веку, литературой которого мы гордимся. Здесь почти не настроены технологии, чтобы оцифровывать язык и письменность этой эпохи. Другими были и правила правописания, и речь. Книги XVIII и XIX века воспроизводятся с гораздо большим числом ошибок, чем мы привыкли, но современные модели ИИ позволяют улучшить требуемое качество. Во-первых, нужно объяснить машине, что сами буквы печатались в книге непривычным для современной действительности образом. Например, буква «т» воспроизводилась типографиями как перевернутая «ш», то есть была похожа на курсивное начертание. Во-вторых, когда у машины уже сформировалась гипотеза, как следует понимать тот или иной печатный символ, эту гипотезу следует соотнести с языковыми данными, то есть, говоря инженерным языком, с языковой моделью. Но эта модель не может быть создана на основе современных текстов, это должно быть знание именно о языке XVIII-XIX веков. Разработанные модели помогут качественно переводить в цифровой формат объекты нашей культуры.


Направление “Корпуса данных и инструменты автоматического анализа малоресурсных языков России”

Генеральная Ассамблея ООН провозгласила период с 2022 по 2032 год Международным десятилетием языков коренных народов мира (IDIL 2022-2032). Вместе с FieldNLP ученые работают над проектами, связанными с повышением доступности этих языков и снижением порога вхождения носителей таких языков в интернет и обратно.

Основная цель текущей работы — построение фреймворка для корпусных платформ. Исследователи объединяют интерфейсы различных коллекций текстов и записей на языках России и предоставляют исследователям единый интерфейс для работы с таким многообразием данных.


Направление “Применение лингвистической теории дискурса в задачах генерации текста на естественном языке”

В этом направлении с помощью технологий ИИ исследователи делают диалог с компьютером более разумным и комфортным для использования. “Представьте, что в специализированном форуме или в чате между собой мирно, но увлеченно беседуют несколько посетителей. А теперь представьте, что все они, на самом деле, компьютерные модели. Мы пытаемся сделать так, чтобы отличить разговор таких моделей друг с другом от обычного диалога людей мог только автор моделей. Для этого мы исследуем влияние разговорного дискурса на поведение моделей”, - поясняют ученые.