Семинары 2019

Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).

Семинар "Neural entity linking using graph embeddings"

Дата: 23 декабря 2019.
Докладчик: Özge Sevgili Ergüven (Language Technology Group, University of Hamburg) .
Аннотация: Entity Disambiguation (ED) is the task of linking an ambiguous entity mention to a corresponding entry in a knowledge base. Current methods have mostly focused on unstructured text data to learn representations of entities, however, there is structured information in the knowledge base itself that should be useful to disambiguate entities. In this work, we propose a method that uses graph embeddings for integrating structured information from the knowledge base with unstructured information from text-based representations. Our experiments confirm that graph embeddings trained on a graph of hyperlinks between Wikipedia articles improve the performances of simple feed-forward neural ED model and a state-of-the-art neural ED system.

Совместный семинар Научно-учебной лаборатории моделей и методов вычислительной прагматики и лаборатории Speech & Language Huawei

Дата: 18 декабря 2019
На семинаре прозвучали два доклада, посвященные актуальным проблемам:
1. Павел Браславский (ВШЭ СПб / УрФУ / JetBrains Research) рассказал про автоматический анализ и генерацию юмора с обзорным докладом:

LOL NLP: an overview of computational humor

2. Михаил Кудинов (Huawei Research) представил краткий обзор по технологиям генерации речи:

Text-to-Speech

Семинар "Методы использования структурированных источников знаний в задачах автоматической обработке текстов"

Дата: 16 ноября 2019
Докладчики: Михаил Галкин (Fraunhofer IAIS, Дрезден), Андрей Бут (Huawei Noah’s Ark Lab), Дмитрий Пузырев (стажер-исследователь Лаборатории ММВП)
Аннотация: Михаил Галкин сделал обзорный доклад, посвященный вопросно-ответным системам, использующим базы знаний. Дмитрий Пузырев представил собственные исследования о применимости гиперболических векторных представлений слов в задаче определения композициональности именной группы, Андрей Бут провел ретроспективу недавно завершившийся конференции EMNLP.

Презентация Галкин М. (PDF, 5,81 Мб)

Презентация Бут А. (PDF, 1,87 Мб)

Презентация Пузырев Д. (PDF, 578 Кб)

Семинар "Анализ дискурса в задачах автоматической обработки"

Дата: 14 ноября 2019
Докладчик: Елена Чистова
Аннотация: Многие задачи NLP требуют анализа текста за пределами одного предложения. Одной из наиболее широко используемых теорий для описания дискурсивной структуры текста является теория риторических структур (RST). В ней текст представляется в виде дерева составляющих, содержащего отношения (развитие, причина, фон и т.д.) между сегментами текстов. В докладе были представлены результаты экспериментов по созданию дискурсивного анализатора на основе корпуса RuRSTreebank, содержащего разметку русскоязычных текстов нескольких жанров.
В рамках семинара прошел круглый стол, посвященный вопросам использования анализа дискурса в задачах автоматической обработки текстов. Участники круглого стола – научные сотрудники НУИ ВШЭ и ФИУ ИУ РАН.

Презентация (PDF, 1,63 Мб)

Семинар "Эволюция семантики слов во времени и дистрибутивные методы"

Дата: 24 октября 2019
Докладчик: Андрей Кутузов, University of Oslo
Аннотация: Дистрибутивно-семантические векторные модели (word embeddings) хорошо зарекомендовали себя в детектировании диахронических семантических сдвигов. В рамках SemEval-2020 прошло соревнование на эту тему. Скорее всего, большинство участников так или иначе используют дистрибутивные подходы. Докладчик кратко рассказал о достигнутых результатах в этой области: продемонстрировал публично доступные, вручную размеченные тестовые сеты для русского языка, а также хорошо сработавшие алгоритмы обнаружения семантических сдвигов при помощи диахронических эмбеддингов. Также состоялось обсуждение некоторых часто встречающихся ошибок при использовании дистрибутивных моделей. Семинар завершился совместным обсуждением задач, предложенных организаторами SemEval-2020.

Презентация (PDF, 3,37 Мб)

Семинар "Соревнование по решению школьных тестов по русскому языку и базовое решение для него"

Дата: 3 октября 2019
Докладчик: Валентин Малых (научный сотрудник Huawei Noah's Ark lab)
Аннотация: В докладе рассказано о проходящем соревновании https://contest.ai-journey.ru, в чем состоит его сложность и почему оно интересно. Рассмотрено базовое решение для этого соревнования, которое набрало бы "тройку" на настоящем экзамене. Если вы заинтересовались, то может быть у вас получится сделать решение на "отлично".

Презентация (PDF, 812 Кб)

Семинар "Определение тональности аспектных категорий в русском языке"

Дата: 19 сентября 2019
Докладчики: Илья Соченков (заведующий отделом ФИЦ ИУ РАН), Филипп Фураев и Никита Боровков (студенты Сколтех-ГУАП).
Аннотация: В докладе был представлен способ автоматической разметки датасета (на примере отзывов о мобильных телефонах) Яндекс Маркет по полярностям аспектных категорий с использованием оценок наиболее употребляемых слов для описания категорий товара. Под категорией подразумевается наиболее характерные свойства товара. Например, для мобильных телефонов: экран, батарея... В докладе рассмотрено применение нескольких моделей машинного обучения для решения поставленных задач и приведены результаты сравнительных оценок качества их работы.

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.

Научно-учебная лаборатория моделей и методов вычислительной прагматики