• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Семинар НУЛ ММВП: "Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах".

Мероприятие завершено
Харламова Дарья Сергеевна

В четверг 13 июня в 18:00, в рамках семинара “Автоматическая обработка и анализ текстов” состоится онлайн-выступление на тему: "Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах".

Спикером выступит Харламова Дарья Сергеевна, студент 3 курса ОП «Фундаментальная и компьютерная лингвистика», НИУ ВШЭ-Москва и Стажер-исследователь научно-учебной лаборатории учебных корпусов.

Аннотация: В представляемой работе исследуются возможности современных нейросетевых моделей при решении задачи автоматического поиска ошибок интерференции в текстах на иностранном (английском) языке, созданных русскоязычными студентами. В докладе будет представлена система разметки мотивированных интерференцией ошибок, мультиклассовый классификатор, который представляет собой дотренированную на размеченных предложениях roberta-base, а также будут рассмотрены различные подходы к аугментации данных для такой задачи. В ряду таких подходов рассматривается GAN, дообучение моделей distilgpt2 и GPT2, использование больших языковых моделей, использование линейного кода на сгенерированных правильных предложениях. В результате сравнения успешности классификатора, дообученного на реальных данных, и разных конфигурациях аугментированных датасетов, полученных с помощью вышеупомянутых методов, будет сделан вывод о том, что самым лучшим качеством разметки обладает классификатор, дообученный на датасете из реальных данных и данных, аугментированных с помощью линейного кода.

Подключится к семинару