• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинары

Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки   и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).

Онлайн-семинар «Энтропийный подход в тематическом моделировании»
Дата: 5 ноября 2020
Докладчики: Кольцов Сергей Николаевич, ведущий научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики, 
Игнатенко Вера Викторовна, научный сотрудник Лаборатории социальной и когнитивной информатики, доцент департамента математики..
Аннотация: В докладе будут рассмотрены возможности применения деформированных энтропий (энтропия Реньи, Цаллиса, Шарма-Миттала) для анализа поведения ряда тематических моделей (ТМ). В докладе описывается подход к анализу зависимости ТМ от числа тем на основе идей из статистической физики. В рамках данного подхода коллекция документов и слов рассматривается в виде мезоскопической информационной системы, состояние которой описывается деформированными энтропиями, а поведение информационной системы определяется числом кластеров/тем. Тематическое моделирование рассматривается как процедура упорядочивания информационный системы. Исходя из этого, проблему выбора оптимального числа тем можно свести к проблеме нахождения минимума свободной энергии или минимума неравновесной энтропии Реньи/Цаллиса, а поиск семантической стабильности можно определить при помощи энтропии Шарма-Миттала. В рамках данного доклада будет показано, как можно организовать настройку гипер-параметров тематических моделей в терминах энтропии, как при помощи перебора гипер – параметров по сетке, так и при помощи процедур ренормализации. Процедура ренормализации тематических моделей позволяет существенно ускорить применение энтропийного подхода с вычислительной точки зрения, что чрезвычайно важно при работе с большими данными. В рамках данного доклада также будет рассмотрена возможность применения энтропийного подхода к иерархическим тематическим моделям, и будут обсуждаться ограничения данного подхода. Кроме того, в докладе будут представлены результаты расчетов таких тематических моделей как PLSA, VLDA (Блей), LDA (Gibbs sampling), GLDA(Gibbs sampling), BigARTM; результаты применения процедур ренормализации, а также результы расчетов нескольких иерархических тематических моделей (HPAM, HLDA, hARTM).

Онлайн-семинар «
Machine Reading Comprehension and Russian Language»

Дата: 17 сентября 2020
Докладчики: Pavel Efimov earned his Master degree in Computer Science at Saint Petersburg State University. Now he is a PhD student at ITMO University. 
Аннотация: First, I will briefly survey machine reading comprehension (RC) and its flavors, as well as methods and datasets used to leverage the task. Then I will focus on RC datasets for non-English languages. I will pay special attention to Russian RC dataset — Sberbank Question Answering Dataset (SberQuAD). SberQuAD has been widely used since its inception in 2017, but it hasn't been described and analyzed properly in the literature until recently. In my presentation, I will provide a thorough analysis of SberQuAD and report several baselines.

Онлайн-семинар «RussianSuperGLUE» 

Дата: 3 сентября 2020
Докладчик: Алена Феногенова. Chief specialist NLP R&D, CDS office, Sberbank
Аннотация: 
В этом докладе был представлен большой бенчмарк для оценки языковых моделей – Russian SuperGLUE. Последние достжения в автоматической обработке текстов – универсальные языковые модели и трансформеры – требуют разработки методологии оценивания и тестирования их обобщающей способности. С этой целью разрабатываются новые наборы диагностических тестов, направленные на определение логического следования, общей логики, способности выполнять простые логические связи. Впервые такой бенчмарк, состоящий из девяти наборов диагностических текстов, собран для русского языка в соответствии со стандартом SuperGLUE. Были представлены как наборы данных, так и экспертные оценки и базовые решения соответствующих задач.

Онлайн-семинар «Deep Active Learning: Reducing Annotation Effort for Automatic Sequence Tagging of Clinical and Biomedical Texts»

Дата: 13 мая 2020
Докладчик: Алексей Зобнин, доцент факультета компьютерных наук НИУ ВШЭ, ведущий разработчик службы геопоиска и справочника организаций Яндекса.
Аннотация: Active learning is a technique that helps to minimize the annotation budget required for the creation of a labeled dataset while maximizing the performance of a model trained on this dataset. It has been shown that active learning can be successfully applied to sequence tagging tasks of text processing in conjunction with deep learning models even when a limited amount of labeled data is available. Recent advances in transfer learning methods for natural language processing based on deep pre-trained models such as ELMo and BERT offer a much better ability to generalize on small annotated datasets compared to their shallow counterparts. The combination of deep pre-trained models and active learning leads to a powerful approach to dealing with annotation scarcity. In this report, we will present recent experimental results of deep active learning on clinical and biomedical data in English and Russian. We will consider SOTA sequence tagging models in combination with several active learning strategies. Among NER and other sequence labeling tasks, we will discuss application of active learning in the task of finding heart risk factors in EHRs, which is a part of a biomedical research project on automated ischemic stroke prediction.
Презентация: 
13_05_artem_shelmanov_active_learning_NLP (PDF, 3.34 Мб) 

Онлайн-семинар «Коллаборативная фильтрация и автоэнкодеры»
Дата: 7 мая 2020
Докладчик: Илья Шенбин, сотрудник лаборатории Samsung AI при ПОМИ РАН.
Аннотация: Матричная факторизация стала стандартным подходом коллаборативной фильтрации, который используется при создании рекомендательных систем. Несмотря на ряд преимуществ, state-of-the-art результаты демонстрируют альтернативные методы. В данном докладе будут рассмотрены два типа моделей: т.н. линейные автоэнкодеры (например, SLIM), суть которых заключается в обучении матрицы похожести между предметами, а так же их более гибкие обобщения — глубокие автоэнкодеры (преимущественно основанные на VAE).
Презентация: 
7_05_ilya_shenbin (PDF, 536 Кб) 

Онлайн-семинар «Линейная алгебра в задачах векторного представления слов»

Дата: 16 апреля 2020
Докладчик: Алексей Зобнин, доцент факультета компьютерных наук НИУ ВШЭ, ведущий разработчик службы геопоиска и справочника организаций Яндекса.
Аннотация: В прикладных задачах, связанных с автоматической обработкой текстов, слова заменяются действительными векторами сравнительно небольшой размерности, такими, что семантическая и синтаксическая близость слов соответствует геометрической близости векторов. Обычно такие векторы получаются из слоёв нейронной сети, или из низкоранговых разложений матриц. Мы рассмотрим две базовых модели построения таких векторов - SVD-разложение PPMI-матрицы и word2vec SGNS. Проанализировав первую модель, мы предложим модификацию второй модели, исключив из нее векторы контекстов. Для этого нам понадобятся теоремы из классической линейной алгебры.
Презентация: 
18_04_alexey_zobnin_embeddings (PDF, 333 Кб) 
Видео

Онлайн-семинар «От векторных представлений слов к гиперболическому пространству и обратно»
Дата: 2 апреля 2020 
Докладчик: Женисбек Асылбеков
Аннотация: Доклад состоит из двух частей. В первой части я сделаю краткий обзор нашей предыдущей работы о переходе от векторных представлений слов к геометрии Лобачевского через бинаризированную PMI матрицу и сложные сети. Во второй части речь пойдет об обратном переходе. Мы выбираем случайные точки в гиперболическом диске и утверждаем, что эти точки уже являются представлениями слов. Однако, еще предстоит выяснить, какая точка соответствует какому слову человеческого языка. Это соответствие может быть приблизительно установлено с использованием PMI матрицы и методами сопоставления графов.
Презентация:
02_04_zhenisbek_assylbekov_hyperbolic_embeddings (PDF, 539 Кб) 
Видео 

Онлайн-семинар «Сегментация сетевого представления текста на предложения и формирование дискурса в задачах синтеза текста»

Дата: 19 марта 2020
Докладчики: Alexander Shvets, Postdoctoral Researcher @ the Natural Language Processing Group (TALN), Department of Information and Communication Technologies, Pompeu Fabra University, Barcelona, Дмитрий Девяткин, н.с. ФИЦ ИУ РАН 
Аннотация: В докладе рассматриваются основные подзадачи порождения текстов на основе данных нелингвистической природы и методы их решения. Особое внимание уделяется подходам к решению двух подзадач: декомпозиции исходного структурированного описания на фрагменты, соответствующие отдельным предложениям (sentence packaging), а также формированию дискурсивной схемы текста – определению порядка, в котором информация должна появляться в тексте. Из-за небольшого объема ресурсов с дискурсивной разметкой обучение сложных моделей для анализа дискурса является нетривиальной задачей. В докладе представлены предварительные результаты экспериментов с предобучением моделей анализа дискурса на большом автоматически размеченном корпусе текстов. В области генерации текстов на естественных языках (natural language generation) основное внимание исследователей сосредоточено на решении задач порождения текста на основе текста (text-to-text). Однако актуальной задачей является также генерация связных текстов на основе данных нелингвистической природы, например, на основе графа знаний (knowledge graph) или сети лингвистических аннотаций. Среди прикладных применений решения этой задачи можно отметить генерацию виртуальных новостных лент и репортажей на основе статистической информации, построение погодных и финансовых отчетов, генерацию обобщенной информации о пациенте при автоматизации лечебно-профилактической деятельности.
Видео 

Семинар «Non-Autoregressive Island in Autoregressive World (Неавторегрессионные языковые модели)»

Дата: 12 марта 2020
Докладчик: Михаил Архипов, МФТИ, Лаборатория Нейронных Систем и Глубокого Обучения, DeepPavlov // Mikhail Arkhipov, MIPT, DeepPavlov.
Аннотация: The vast majority of current state-of-the-art models rely on autoregressive inference for modeling sequences. While showing top quality metrics this approach has several intrinsic drawbacks such as sequential inference and exposure bias. Despite the struggles* of the research community current parallel approaches show lower quality being in particular cases an order of magnitude faster. In this talk, we will review approaches to parallel inference and discuss recent papers devoted to the subject.
*an approximate list of struggles:
Non-Autoregressive Neural Machine Translation
Noisy parallel approximate decoding for conditional recurrent language model
Fast Decoding in Sequence Models Using Discrete Latent Variables
On the Discrepancy between Density Estimation and Sequence Generation
Mask-Predict: Parallel Decoding of Conditional Masked Language Models
Презентация: 
12_03_mikhail_arkhipov_autoregressive_mt (PDF, 1.90 Мб) 

Семинар «Внедрение баз знаний в языковые модели»

Дата: 20 февраля 2020
Докладчик: Данил Карпушкин, Сбербанк ИИ лаборатории
Аннотация: Доклад посвящен методам, которыми можно "внедрить" априорные знания в хорошо известные трансформеры.
Для этого часто используются некоторые заранее построенные системы знаний (они же Knowledge Bases или KB), чью структуру entity (сущностей) мы и будем пытаться внедрять в модели. В выступлении были упомянуты статьи:

Презентация: 
20_02_danil_karpushkin_knowledge_bert (PDF, 2.98 Мб) 

Семинар «Emergence of language in games»
Дата: 13 февраля 2020
Докладчик: Екатерина Артемова
Аннотация: This talk will provide an overview of recent works in emergent communications. It is assumed that artificial agents are capable of developing language through playing various co-operative games. In this type of games agents need  to collaborate to perform some task, such as to guess an object or a word or to find a path. If a game starts from a tabula rasa setup, agents need to communicate and thus develop their own language. We will discuss several recent papers which model different types of games and communications as well as investigate the inner representations of the agents. 

Семинар  «Neural entity linking using graph embeddings»
Дата:  23 декабря 2019
Докладчик:  Özge Sevgili Ergüven  (Language Technology Group, University of Hamburg) 
Abstract:   Entity Disambiguation (ED) is the task of linking an ambiguous entity mention to a corresponding entry in a knowledge base. Current methods have mostly focused on unstructured text data to learn representations of entities, however, there is structured information in the knowledge base itself that should be useful to disambiguate entities. In this work, we propose a method that uses graph embeddings for integrating structured information from the knowledge base with unstructured information from text-based representations. Our experiments confirm that graph embeddings trained on a graph of hyperlinks between Wikipedia articles improve the performances of simple feed-forward neural ED model and a state-of-the-art neural ED system.

Совместный семинар Научно-учебной лаборатории моделей и методов вычислительной прагматики и  лаборатории  Speech & Language Huawei
Дата: 18 декабря 2019
На семинаре прозвучали два доклада, посвященные актуальным проблемам: 
1.    Павел Браславский  (ВШЭ СПб / УрФУ / JetBrains Research) рассказал про автоматический анализ и генерацию юмора с обзорным докладом "LOL NLP: an overview of computational humor".
Презентация: 
18_12_pavel_braslavski_hymor (PDF, 1.49 Мб) 
2.    Михаил Кудинов (Huawei Research) представил краткий обзор по технологиям генерации речи (Text-to-Speech) .
Презентация: 
18_12_mihail_kudinov_tts (PDF, 1.66 Мб) 

Семинар «Методы использования структурированных источников знаний в задачах автоматической обработке текстов»  

Дата: 16 ноября 2019
Докладчики: Михаил Галкин (Fraunhofer IAIS,  Дрезден), Андрей Бут (Huawei Noah’s Ark Lab), Дмитрий Пузырев (стажер-исследователь Лаборатории ММВП)
Аннотация: Михаил Галкин сделал обзорный доклад, посвященный вопросно-ответным системам, использующим базы знаний. Дмитрий Пузырев представил собственные исследования о применимости гиперболических векторных представлений слов  в задаче определения композициональности именной группы, Андрей Бут провел ретроспективу недавно завершившийся конференции EMNLP.
Презентации: 

16_11_huawei_michael galkin_knowledge_graphs (PDF, 5.81 Мб) 

16_11_huawei_andrey_bout_emnlp_highlights (PDF, 1.87 Мб) 

16_11_huawei_dmitri_puzyrev_poincare_embeddings (PDF, 578 Кб) 

Семинар «Анализ дискурса в задачах автоматической обработки»
Дата: 14 ноября 2019
Докладчик: Елена Чистова
Аннотация:  Многие задачи NLP требуют анализа текста за пределами одного предложения. Одной из наиболее широко используемых теорий для описания дискурсивной структуры текста является теория риторических структур (RST). В ней текст представляется в виде дерева составляющих, содержащего отношения (развитие, причина, фон и т.д.) между сегментами текстов. В докладе были представлены результаты экспериментов по созданию дискурсивного анализатора на основе корпуса RuRSTreebank, содержащего разметку русскоязычных текстов нескольких жанров.
В рамках семинара прошел круглый стол, посвященный вопросам использования анализа дискурса в задачах автоматической обработки текстов. Участники круглого стола – научные сотрудники НУИ ВШЭ и ФИУ ИУ РАН.
Презентация:
14_11_elena_chistova_discourse (PDF, 1.63 Мб) 

Семинар  «Эволюция семантики слов во времени и дистрибутивные методы»
Дата:  24 октября 2019

Докладчик:  Андрей Кутузов, University of Oslo
Аннотация:  Дистрибутивно-семантические векторные модели (word embeddings) хорошо зарекомендовали себя в детектировании диахронических семантических сдвигов. В рамках SemEval-2020 прошло соревнование на эту тему. Скорее всего, большинство участников так или иначе используют дистрибутивные подходы. Докладчик кратко рассказал о достигнутых результатах в этой области: продемонстрировал публично доступные, вручную размеченные тестовые сеты для русского языка, а также хорошо сработавшие алгоритмы обнаружения семантических сдвигов при помощи диахронических эмбеддингов. Также состоялось обсуждение некоторых часто встречающихся ошибок при использовании дистрибутивных моделей. Семинар завершился совместным обсуждением задач, предложенных организаторами SemEval-2020.
Презентация: 
24_10_andrei_kutuzov_diachrony (PDF, 3.37 Мб) 

Семинар «Соревнование по решению школьных тестов по русскому языку и базовое решение для него» 
Дата:  3 октября 2019
Докладчик:  Валентин Малых (научный сотрудник Huawei Noah's Ark lab)
Аннотация: В докладе рассказано о проходящем соревновании https://contest.ai-journey.ru, в чем состоит его сложность и почему оно интересно. Рассмотрено базовое решение для этого соревнования, которое набрало бы "тройку" на настоящем экзамене. Если вы заинтересовались, то может быть у вас получится сделать решение на "отлично".
Презентация: 
03_10_valentin_malykh_school_test (PDF, 812 Кб) 

Семинар «Определение тональности аспектных категорий в русском языке»
Дата:  19 сентября 2019

Докладчики:  Илья Соченков (заведующий отделом ФИЦ ИУ РАН), Филипп Фураев и Никита Боровков (студенты Сколтех-ГУАП).
Аннотация:   В докладе был представлен способ автоматической разметки датасета (на примере отзывов о мобильных телефонах) Яндекс Маркет по полярностям аспектных категорий с использованием оценок наиболее употребляемых слов для описания категорий товара. Под категорией подразумевается наиболее характерные свойства товара. Например, для мобильных телефонов: экран, батарея... В докладе рассмотрено применение нескольких моделей машинного обучения для решения поставленных задач и приведены результаты сравнительных оценок качества их работы.

Семинар  «Word sense induction» 
Дата:  5 сентября 2019

Докладчик:  Николай Арефьев (инженер Исследовательского центра Самсунг)  
Аннотация:  Доклад посвящен исследованиям автора к области применения современных языковых моделей (ELMo,BERT) для генерации лексических постановок и их использования для русского и английского WSI. Задача извлечения значений слов (word sense induction, WSI) требует группировки текстовых фрагментов,  содержащих многозначное слово,  в кластеры,  соответствующие значениям слова. Один из перспективных подходов к решению этой задачи состоит в генерации лексических подстановок (слов,  которые могли бы стоять на месте неоднозначного) и дальнейшей их кластеризации.
Онлайн-семинар «От векторных представлений слов к гиперболическому пространству и обратно»
Дата: 2 апреля 2020 
Докладчик: Женисбек Асылбеков
Аннотация: Доклад состоит из двух частей. В первой части я сделаю краткий обзор нашей предыдущей работы о переходе от векторных представлений слов к геометрии Лобачевского через бинаризированную PMI матрицу и сложные сети. Во второй части речь пойдет об обратном переходе. Мы выбираем случайные точки в гиперболическом диске и утверждаем, что эти точки уже являются представлениями слов. Однако, еще предстоит выяснить, какая точка соответствует какому слову человеческого языка. Это соответствие может быть приблизительно установлено с использованием PMI матрицы и методами сопоставления графов.
Презентация:
02_04_zhenisbek_assylbekov_hyperbolic_embeddings (PDF, 539 Кб) 
Видео

 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.