25 апреля, в день рождения А.Н. Колмогорова, в третий раз прошел совместный семинар ФГН и ФКН "Колмогоровские чтения"
Семинар посвящен проблемам обработки естественного языка автоматическими методами и позволяет лингвистам и математикам обсудить наиболее животрепещущие проблемы NLP, не прибегая к посредникам. В этом году на Колмогоровских чтениях было представлено почти три десятка докладов и постеров, охватывающих разнообразные сферы применения компьютерных технологий в лингвистике.
Студенты и преподаватели Вышки, МГУ и МГТУ имени Баумана, а также коллеги из других университетов России представили свои исследования, посвященные автоматическому распознаванию жанра текстов, дискурсивным формулам в пьесах на русском языке, диахронным изменениям коллокаций и семантической близости.
Семинар начался с лекции Леонида Лейбовича Иомдина, который рассказал о работе лингвистического процессора ЭТАП 3, особое внимание уделив синтаксическим и семантическим особенностям переводчика. ЭТАП 3 - одна из немногих систем, полностью основанная на правилах, что довольно необычно для современных исследователей, работающих преимущественно со статистическими методами машинного перевода.
Анастасия и Константин Лопухины представили исследование Центра языка и мозга Школы лингвистики, посвященное предсказуемости слов в нейролингвистических исследованиях. Способность человека предугадывать следующее слово в предложении сравнивалась с данными модели, построенной на корпусах русского языка, - корпусная лингвистика в этом случае может помочь предсказать наиболее предпочтительные варианты и сэкономить время исследователей.
Ольга Ляшевская рассказала о UD - новом формате представления синтаксической разметки, которая позволяет унифицировать корпуса разных языков. Последние данные, собранные по материалам русскоязычного сегмента интернета, ставят перед лингвистами своебразные задачи - например, теперь нужно решать, каким типом связи объединены смайлы, часто встречающиеся в интернет-коммуникации?
Разнообразие подходов к изучению языка было заметно и в методах исследования - от классических статистических метрик в докладе Дианы Соболевой о вопросно-ответной системе до популярных ныне нейронных сетей - Оксана Дереза рассказала об опыте лемматизации языков с ограниченными ресурсами на примере древнеирландского, а Николай Русначенко - об использовании сверточных нейронных сетей для извлечения настроений из аналитических текстов.
Надеемся, что день рождения выдающегося математика Колмогорова и впредь будет днем обсуждения проблем обработки естественного языка.