• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинары 2024

Семинар “Автоматическая обработка и анализ текстов” посвящен различным задачам обработки (токенизации, восстановлению сегментации, частеречной разметки   и синтаксического парсинга) и анализа текстовой информации (задачам извлечения информации, построения и использования графов знаний, конструированию вопросно-ответных систем, классификации текстов и др.).

Онлайн семинар "Investigation of transformer modifications for various long documents processing tasks"

Дата:  8 февраля, 18:00

Спикер: Ариж Аль Адел - аспирант 4ого года обучения, Школы Радиотехники и Компьютерных Технологий (ФРКТ), Московского физико-технического института. 

Аннотация: The following research presentation delves into the study aimed at proposing modifications to the attention mechanism of the encoder-decoder transformer. The proposed enhancements seek to overcome the limitations of attention while processing texts that exceed 512 tokens, with the ultimate goal of expanding the transformer input to thousands of tokens. This study gradually progresses from the initial stages of model design to the current, improved design, with experiments conducted on different natural language processing (NLP) tasks such as translation, Masked Language Modeling (MLM), Question Answering (QA), and summarization. The presentation concludes stage by stage with an overview of each stage's outcomes.

Запись семинара доступна по ссылке

Presentation (PDF, 2,06 Мб)

 

Онлайн-семинар: "Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах".

Дата: 13.06.2024

Спикер: Харламова Дарья Сергеевна, студент 3 курса ОП «Фундаментальная и компьютерная лингвистика», НИУ ВШЭ-Москва и Стажер-исследователь научно-учебной лаборатории учебных корпусов.

Аннотация: В представляемой работе исследуются возможности современных нейросетевых моделей при решении задачи автоматического поиска ошибок интерференции в текстах на иностранном (английском) языке, созданных русскоязычными студентами. В докладе будет представлена система разметки мотивированных интерференцией ошибок, мультиклассовый классификатор, который представляет собой дотренированную на размеченных предложениях roberta-base, а также будут рассмотрены различные подходы к аугментации данных для такой задачи. В ряду таких подходов рассматривается GAN, дообучение моделей distilgpt2 и GPT2, использование больших языковых моделей, использование линейного кода на сгенерированных правильных предложениях. В результате сравнения успешности классификатора, дообученного на реальных данных, и разных конфигурациях аугментированных датасетов, полученных с помощью вышеупомянутых методов, будет сделан вывод о том, что самым лучшим качеством разметки обладает классификатор, дообученный на датасете из реальных данных и данных, аугментированных с помощью линейного кода.

Запись семинара доступна по ссылке


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.