• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинары 2020

Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки   и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).

Онлайн-семинар "Combining Neural Language Models for Word Sense Induction"

Дата: 8 декабря 2020
Докладчик: Арефьев Николай Викторович, м.н.с. НУЛ моделей и методов вычислительной прагматики, к.ф.-м.н.
Аннотация:  Задача выявления значений слов (word sense induction, WSI) требует группировки текстовых фрагментов, содержащих многозначное слово, в кластеры, соответствующие значениям слова. Доклад посвящен исследованиям автора к области применения нейронных языковых моделей для генерации лексических постановок и их использования для русского и английского WSI. Рассматриваются подходы к комбинированию вероятностных распределений, оцениваемых языковыми моделями, для улучшения качества подстановок и результатов WSI.

Онлайн-семинар "Machine Reading Comprehension and Russian Language"

Дата: 17 сентября 2020
Докладчики: Pavel Efimov
Earned his Master degree in Computer Science at Saint Petersburg State University. Now he is a PhD student at ITMO University. 
Аннотация: First, I will briefly survey machine reading comprehension (RC) and its flavors, as well as methods and datasets used to leverage the task. Then I will focus on RC datasets for non-English languages. I will pay special attention to Russian RC dataset — Sberbank Question Answering Dataset (SberQuAD). SberQuAD has been widely used since its inception in 2017, but it hasn't been described and analyzed properly in the literature until recently. In my presentation, I will provide a thorough analysis of SberQuAD and report several baselines.

Онлайн-семинар "RussianSuperGLUE"

Дата: 3 сентября 2020
Докладчик: Алена Феногенова. Chief specialist NLP R&D, CDS office, Sberbank
Аннотация: В этом докладе был представлен большой бенчмарк для оценки языковых моделей – Russian SuperGLUE. Последние достжения в автоматической обработке текстов – универсальные языковые модели и трансформеры – требуют разработки методологии оценивания и тестирования их обобщающей способности. С этой целью разрабатываются новые наборы диагностических тестов, направленные на определение логического следования, общей логики, способности выполнять простые логические связи. Впервые такой бенчмарк, состоящий из девяти наборов диагностических текстов, собран для русского языка в соответствии со стандартом SuperGLUE. Были представлены как наборы данных, так и экспертные оценки и базовые решения соответствующих задач.

Онлайн-семинар "Deep Active Learning: Reducing Annotation Effort for Automatic Sequence Tagging of Clinical and Biomedical Texts"

Дата: 13 мая 2020
Докладчик: Алексей Зобнин, доцент факультета компьютерных наук НИУ ВШЭ, ведущий разработчик службы геопоиска и справочника организаций Яндекса.
Аннотация: Active learning is a technique that helps to minimize the annotation budget required for the creation of a labeled dataset while maximizing the performance of a model trained on this dataset. It has been shown that active learning can be successfully applied to sequence tagging tasks of text processing in conjunction with deep learning models even when a limited amount of labeled data is available. Recent advances in transfer learning methods for natural language processing based on deep pre-trained models such as ELMo and BERT offer a much better ability to generalize on small annotated datasets compared to their shallow counterparts. The combination of deep pre-trained models and active learning leads to a powerful approach to dealing with annotation scarcity. In this report, we will present recent experimental results of deep active learning on clinical and biomedical data in English and Russian. We will consider SOTA sequence tagging models in combination with several active learning strategies. Among NER and other sequence labeling tasks, we will discuss application of active learning in the task of finding heart risk factors in EHRs, which is a part of a biomedical research project on automated ischemic stroke prediction.

Презентация (PDF, 3,34 Мб)

Онлайн-семинар "Коллаборативная фильтрация и автоэнкодеры"

Дата: 7 мая 2020
Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН.
Аннотация: Матричная факторизация стала стандартным подходом коллаборативной фильтрации, который используется при создании рекомендательных систем. Несмотря на ряд преимуществ, state-of-the-art результаты демонстрируют альтернативные методы. В данном докладе будут рассмотрены два типа моделей: т.н. линейные автоэнкодеры (например, SLIM), суть которых заключается в обучении матрицы похожести между предметами, а так же их более гибкие обобщения — глубокие автоэнкодеры (преимущественно основанные на VAE).

Презентация (PDF, 536 Кб)

Онлайн-семинар "Линейная алгебра в задачах векторного представления слов"

Дата: 16 апреля 2020
Докладчик: Алексей Зобнин, доцент факультета компьютерных наук НИУ ВШЭ, ведущий разработчик службы геопоиска и справочника организаций Яндекса.
Аннотация: В прикладных задачах, связанных с автоматической обработкой текстов, слова заменяются действительными векторами сравнительно небольшой размерности, такими, что семантическая и синтаксическая близость слов соответствует геометрической близости векторов. Обычно такие векторы получаются из слоёв нейронной сети, или из низкоранговых разложений матриц. Мы рассмотрим две базовых модели построения таких векторов - SVD-разложение PPMI-матрицы и word2vec SGNS. Проанализировав первую модель, мы предложим модификацию второй модели, исключив из нее векторы контекстов. Для этого нам понадобятся теоремы из классической линейной алгебры.

Презентация (PDF, 333 Кб)

Онлайн-семинар "От векторных представлений слов к гиперболическому пространству и обратно"

Дата: 2 апреля 2020 
Докладчик: Женисбек Асылбеков
Аннотация: Доклад состоит из двух частей. В первой части я сделаю краткий обзор нашей предыдущей работы о переходе от векторных представлений слов к геометрии Лобачевского через бинаризированную PMI матрицу и сложные сети. Во второй части речь пойдет об обратном переходе. Мы выбираем случайные точки в гиперболическом диске и утверждаем, что эти точки уже являются представлениями слов. Однако, еще предстоит выяснить, какая точка соответствует какому слову человеческого языка. Это соответствие может быть приблизительно установлено с использованием PMI матрицы и методами сопоставления графов.

Презентация (PDF, 539 Кб)

Онлайн-семинар "Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста"

Дата: 19 марта 2020
Докладчики: Alexander Shvets, Postdoctoral Researcher, the Natural Language Processing Group (TALN), Department of Information and Communication Technologies, Pompeu Fabra University, Barcelona, Дмитрий Девяткин, н.с. ФИЦ ИУ РАН 
Аннотация: В докладе рассматриваются основные подзадачи порождения текстов на основе данных нелингвистической природы и методы их решения. Особое внимание уделяется подходам к решению двух подзадач: декомпозиции исходного структурированного описания на фрагменты, соответствующие отдельным предложениям (sentence packaging), а также формированию дискурсивной схемы текста – определению порядка, в котором информация должна появляться в тексте. Из-за небольшого объема ресурсов с дискурсивной разметкой обучение сложных моделей для анализа дискурса является нетривиальной задачей. В докладе представлены предварительные результаты экспериментов с предобучением моделей анализа дискурса на большом автоматически размеченном корпусе текстов. В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text). Однако актуальной задачей является также генерация связных текстов на основе данных нелингвистической природы, например, на основе графа знаний (knowledge graph) или сети лингвистических аннотаций. Среди прикладных применений решения этой задачи можно отметить генерацию виртуальных новостных лент и репортажей на основе статистической информации, построение погодных и финансовых отчетов, генерацию обобщенной информации о пациенте при автоматизации лечебно-профилактической деятельности.

Видео 

Семинар "Non-Autoregressive Island in Autoregressive World (Неавторегрессионные языковые модели)"

Дата: 12 марта 2020
Докладчик: Михаил Архипов, МФТИ, Лаборатория Нейронных Систем и Глубокого Обучения, DeepPavlov // Mikhail Arkhipov, MIPT, DeepPavlov.
Аннотация: The vast majority of current state-of-the-art models rely on autoregressive inference for modeling sequences. While showing top quality metrics this approach has several intrinsic drawbacks such as sequential inference and exposure bias. Despite the struggles* of the research community current parallel approaches show lower quality being in particular cases an order of magnitude faster. In this talk, we will review approaches to parallel inference and discuss recent papers devoted to the subject.

Non-Autoregressive Neural Machine Translation (PDF, 767 Кб)

Noisy parallel approximate decoding for conditional recurrent language model (PDF, 129 Кб)

Fast Decoding in Sequence Models Using Discrete Latent Variables (PDF, 519 Кб)

On the Discrepancy between Density Estimation and Sequence Generation (PDF, 606 Кб)

Mask-Predict: Parallel Decoding of Conditional Masked Language Models (PDF, 400 Кб)

Презентация (PDF, 1,90 Мб)

Семинар "Внедрение баз знаний в языковые модели"

Дата: 20 февраля 2020
Докладчик: Данил Карпушкин, Сбербанк ИИ лаборатории
Аннотация: Доклад посвящен методам, которыми можно "внедрить" априорные знания в хорошо известные трансформеры. Для этого часто используются некоторые заранее построенные системы знаний (они же Knowledge Bases или KB), чью структуру entity (сущностей) мы и будем пытаться внедрять в модели. В выступлении были упомянуты статьи:

Enhanced Language Representation with Informative Entities (PDF, 1,70 Мб)

Enhanced Representation through Knowledge Integration (PDF, 341 Кб)

A Unified Model for Knowledge Embedding and Pre-trained Language Representation (PDF, 2,12 Мб)

Knowledge Enhanced Contextual Word Representations (aka KnowBERT) (PDF, 2,98 Мб)

Презентация (PDF, 2,98 Мб)

Семинар "Emergence of language in games"

Дата: 13 февраля 2020
Докладчик: Екатерина Артемова
Аннотация: This talk will provide an overview of recent works in emergent communications. It is assumed that artificial agents are capable of developing language through playing various co-operative games. In this type of games agents need  to collaborate to perform some task, such as to guess an object or a word or to find a path. If a game starts from a tabula rasa setup, agents need to communicate and thus develop their own language. We will discuss several recent papers which model different types of games and communications as well as investigate the inner representations of the agents. 


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.