• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая обработка и анализ текстов

Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки   и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).

Архив семинара: слайды прошедших докладов 

23.12.2019
Семинар НУЛ ММВП "Автоматическая обработка и анализ текстов"//Özge Sevgili Ergüven (University of Hamburg) "Neural entity linking using graph embeddings"
Докладчик: Özge Sevgili Ergüven (Language Technology Group, University of Hamburg) 
Тема доклада: "Neural entity linking using graph embeddings"
Abstract: Entity Disambiguation (ED) is the task of linking an ambiguous entity mention to a corresponding entry in a knowledge base. Current methods have mostly focused on unstructured text data to learn representations of entities, however, there is structured information in the knowledge base itself that should be useful to disambiguate entities. In this work, we propose a method that uses graph embeddings for integrating structured information from the knowledge base with unstructured information from text-based representations. Our experiments confirm that graph embeddings trained on a graph of hyperlinks between Wikipedia articles improve the performances of simple feed-forward neural ED model and a state-of-the-art neural ED system.
Место проведения: Покровский бульвар, д. 11, ауд. R205.
Дата: 24 декабря 2019, вторник, 19:00

18.12.2019
Совместный семинар Научно-учебной лаборатории моделей и методов вычислительной прагматики и  лаборатории Speech & Language Huawei.
На семинаре прозвучали три доклада, посвященные актуальным проблемам: 

  1. Павел Браславский (ВШЭ СПб / УрФУ / JetBrains Research) рассказал про автоматический анализ и генерацию юмора с обзорным докладом "LOL NLP: an overview of computational humor".
  2.  Михаил Кудинов (Huawei Research) представил краткий обзор по технологиям генерации речи (Text-to-Speech) . 
  3. Арина Агеева (Сбербанк) поделилась опытом по автоматической категоризации резюме при помощи BigARTM.
Место проведения: Ленинградский проспект 36, стр. 11.
Дата мероприятия: 18 декабря, среда, 19:00
https://docs.google.com/forms/d/e/1FAIpQLSdbYiqb5ltdcQ1VRs7IDAEZ1RhtoDMTW1D91WHXJo3nTz-gOw/viewform

16 ноября 2019 
Тема: "
Методы использования структурированных источников знаний в задачах автоматической обработке текстов."
Докладчики: Михаил Галкин (Fraunhofer IAIS,  Дрезден), Андрей Бут (Huawei Noah’s Ark Lab), Дмитрий Пузырев (стажер-исследователь Лаборатории ММВП)
Аннотация: Михаил Галкин сделал обзорный доклад, посвященный вопросно-ответным системам, использующим базы знаний. Дмитрий Пузырев представил собственные исследования о применимости гиперболических векторных представлений слов  в задаче определения композициональности именной группы, Андрей Бут провел ретроспективу недавно завершившийся конференции EMNLP.
Место проведения: Покровский бульвар, д. 11, корпус R, ауд. R206, 15:10 – 20:00

14 ноября 2019
Тема: "Анализ дискурса в задачах автоматической обработки"
Докладчик: Елена Чистова
В рамках семинара прошел круглый стол, посвященный вопросам использования анализа дискурса в задачах автоматической обработки текстов. Участники круглого стола – научные сотрудники НУИ ВШЭ и ФИУ ИУ РАН.

Аннотация доклада: Многие задачи NLP требуют анализа текста за пределами одного предложения. Одной из наиболее широко используемых теорий для описания дискурсивной структуры текста является теория риторических структур (RST). В ней текст представляется в виде дерева составляющих, содержащего отношения (развитие, причина, фон и т.д.) между сегментами текстов. В докладе были представлены результаты экспериментов по созданию дискурсивного анализатора на основе корпуса RuRSTreebank, содержащего разметку русскоязычных текстов нескольких жанров.
Место проведения: Покровский бульвар, д. 11, корпус Д, ауд. Д206, 18:10 – 20:00

24 октября 2019
Тема: «Эволюция семантики слов во времени и дистрибутивные методы»
Докладчик: Андрей Кутузов, University of Oslo
Аннотация: Дистрибутивно-семантические векторные модели (word embeddings) хорошо зарекомендовали себя в детектировании диахронических семантических сдвигов. В рамках SemEval-2020 прошло соревнование на эту тему. Скорее всего, большинство участников так или иначе используют дистрибутивные подходы. Докладчик кратко рассказал о достигнутых результатах в этой области: продемонстрировал публично доступные, вручную размеченные тестовые сеты для русского языка, а также хорошо сработавшие алгоритмы обнаружения семантических сдвигов при помощи диахронических эмбеддингов. Также состоялось обсуждение некоторых часто встречающихся ошибок при использовании дистрибутивных моделей. Семинар завершился совместным обсуждением задач, предложенных организаторами SemEval-2020.
Место проведения: Покровский бульвар, д. 11, ауд. R206, 19:00

3 октября 2019
Тема: "Соревнование по решению школьных тестов по русскому языку и базовое решение для него"
Докладчик: Валентин Малых (научный сотрудник Huawei Noah's Ark lab)
Аннотация: В докладе рассказано о проходящем соревновании https://contest.ai-journey.ru, в чем состоит его сложность и почему оно интересно. Рассмотрено базовое решение для этого соревнования, которое набрало бы "тройку" на настоящем экзамене. Если вы заинтересовались, то может быть у вас получится сделать решение на "отлично".
Место проведения: Покровский бульвар, д. 11, D502, 19:00

19 сентября 2019

Тема: "Определение тональности аспектных категорий в русском языке"
Докладчики: Илья Владимирович Соченков (заведующий отделом ФИЦ ИУ РАН), Филипп Игоревич Фураев и Никита Александрович Боровков (студенты Сколтех-ГУАП).
Аннотация: В докладе был представлен способ автоматической разметки датасета (на примере отзывов о мобильных телефонах) Яндекс Маркет по полярностям аспектных категорий с использованием оценок наиболее употребляемых слов для описания категорий товара. Под категорией подразумевается наиболее характерные свойства товара. Например, для мобильных телефонов: экран, батарея... В докладе рассмотрено применение нескольких моделей машинного обучения для решения поставленных задач и приведены результаты сравнительных оценок качества их работы.
Место проведения:Покровский бульвар, д. 11, R407, 19:00

5 сентября 2019
Тема:  
"Word sense induction" 
Докладчик: 
Николай Арефьев (инженер Исследовательского центра Самсунг) 
Аннотация: 
Задача извлечения значений слов (word sense induction, WSI) требует группировки текстовых фрагментов,  содержащих многозначное слово,  в кластеры,  соответствующие значениям слова. Один из перспективных подходов к решению этой задачи состоит в генерации лексических подстановок (слов,  которые могли бы стоять на месте неоднозначного) и дальнейшей их кластеризации.
Доклад посвящен исследованиям автора к области применения современных языковых моделей (ELMo,BERT) для генерации лексических постановок и их использования для русского и английского WSI.
Место и время проведения: Покровский бульвар, д.11, корпус R, к. R407;  5.09.2019, 19:00 - 20:00

18 мая 2019
Тема: Сравнение методов кластеризации SVO (subject object verb) троек. Предзащиты студентов ФКН.
Докладчик: Сергей Аксенов, 

20 апреля 2019
Тема: "Методы сжатия рекуррентных нейронных сетей для задач обработки естественного языка"
Докладчик: Артем Грачев. 
Аннотация: Доклад был посвящен методам сжатия нейронных сетей и будет состоять из трёх частей. В первой его части - небольшое введение в проблему и рассмотрение базовых методов сжатия,  которые основаны на технических особенностях реализации нейронных сетей в комьютерах. Далее говорили о методах сжатия, основанные на матричных и тензорных разложениях. В последней части обсудили использование байесовских методов для уменьшения количества параметров в нейронной сети.




 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.