Семинары 2021
Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).
Онлайн семинар «Матричные и тензорные разложения в задачах обработки естественного языка»
Дата: 15 июля 2021.
Докладчик: Гринчук Алексей Валерьевич.
Окончил бакалавриат МФТИ в 2015 году. В 2017 окончил магистратуру МФТИ и Сколтеха. С 2017 является аспирантом МФТИ и занимается применением матричных и тензорных разложений к различным задачам обработки естественного языка (NLP) под руководством И.В. Оселедца. С 2020 года работает ведущим инженером в компании NVIDIA, занимается распознаванием речи и машинным переводом.
Аннотация: В настоящей работе предлагаются методы решения различных задач в области обработки естественного языка при помощи матричных и тензорных разложений. Предложен метод построения векторных представлений слов на основе Римановой оптимизации в пространстве матриц малого ранга. Предложена математическая модель векторных представлений слов на основе разложения тензорного поезда, которая требует меньше параметров, чем классическое представление в виде плотной матрицы. Предложено обобщение тензорных нейронных сетей, которое позволяет анализировать рекуррентные и полносвязные сети с различными нелинейностями между слоями. Проведён теоретический анализ обобщающей способности и выразительной силы обобщённых рекуррентных тензорных сетей с нелинейностью типа ReLU.
Онлайн семинар “RuSentEval: диагностическое тестирование языковых моделей на русском языке”
Дата: 27 мая 2021 г.
Докладчики : Владислав Михайлов (Сбер), Екатерина Такташева (ВШЭ), Элина Сигдал (ВШЭ).
Аннотация:
RuSentEval – это новый набор данных для диагностического тестирования (probing) векторных и языковых моделей для русского языка. Набор включает в себя 14 датасетов, которые покрывают различные лингвистические явления – от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего). Классический метод диагностического тестирования – обучить классификатор, который предсказывает наличие того или иного явления по вектору предложения. Поведение классификатора может показать, например, какие слои языковой модели более чувствительны к низкоуровневым признакам, а какие – к высокоуровневым.
В работе мы использовали данные RuSentEval и SentEval (английский язык), чтобы провести диагностическое тестирование пяти мультиязычных трансформеров – в том числе mBERT, mBART и LABSE – и узнали, что модели имеют похожее представление о некоторых признаках для обоих языков, несмотря на их типологические различия. А вот mBART и LABSE отличаются от остальных (как именно – читайте в статье).
Онлайн семинар "Использование определений в задачах мультиязычной классификации смысловой близости вхождений слов и обнаружения семантических сдвигов слов для русского языка"
Дата: 7 апреля 2021.
Докладчик: Максим Рачинский, стажер-исследователь НУЛ моделей и методов вычислительной прагматики.
Аннотация: Обращение к определениям из словаря — это привычный для человека способ выяснить, какие значения имеет то или иное слово. Мы предполагаем, что система, которая может выбрать из толкового словаря или глоссария правильное определение для конкретного вхождения слова, также может естественным образом решать задачи классификации вхождений слов по смысловой близости и обнаружения семантических сдвигов. Такая система на основе определений заняла первое место в соревновании RuShiftEval.
Онлайн семинар "Четыре соревнования Dialogue Evaluation 2021"
Дата: 25 февраля 2021
На семинаре будут представлены соревнования Dialogue Evaluation 2021. Мы расскажем о постановках задач, которым посвящены соревнования и представим базовые подходы к их решению. По результатам участия в каждом соревновании можно будет подать статью на конференцию Диалог.
RuNormAS
В рамках соревнования RuNormAS (Russian Normalization of Annotated Spans) к решению предлагается задача нормализации – приведение части текста (именованной сущности, словосочетания) в нормальную (начальную) форму. Основная часть задачи состоит в том, чтобы правильно нормализовать нужные слова из группы, не меняя остальных (зависимых и т. п.), а также в грамотном использовании контекста. Последнее особенно важно, т. к. начальную форму для многих слов можно определить только в контексте – так, слово "Иванова" в зависимости от окружающего контекста может иметь как нормальную форму "Иванова", так и "Иванов".
Иван Смуров, ABBYY, МФТИ
Кластеризация, выбор и генерация заголовков для новостей.
Цель соревнования – собрать и сравнить подходы к кластеризации и выбору наилучшего заголовка для получившихся кластеров. Кластеризация новостей выглядит достаточно сложной задачей для современных моделей, и из-за этого является хорошим бенчмарком. Кроме того, кластеризация текстов как задача достаточно часто встречается в индустрии. Выбор или генерация лучшего заголовка - логичное её продолжение.
Илья Гусев, МФТИ
SemSketches
Наше соревнование – это возможность поработать с объектом, дающим наглядное представление о семантике слова и его сочетаемости, – с семантическим скетчем. Цель соревнования – оценить иллюстративность скетчей, попробовав по контексту слова предсказать соответствующий слову скетч из заданного набора.
Мария Пономарева, ABBYY, ВШЭ
RuSimpleSentEval, RSSE
Задача упрощения тестов (text simplification) предполагает несколько постановок, из которых мы выбираем самую популярную: упрощение на уровне предложений. В такой постановке задача заключается в том, чтобы из сложного предложения получить упрощенное.
Екатерина Артемова, ВШЭ
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.