MMCP lab Seminar: Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах
On Thursday, June 13 at 18:00, as part of the seminar “Automatic processing and analysis of texts”, an online presentation will be held on the topic: “Усовершенствование трансформерных методов поиска и генерации ошибок под влиянием языковой интерференции в учебных текстах”.
The speaker will be Daria Sergeevna Kharlamova, 3rd year student of “Fundamental and Computational Linguistics”, National Research University Higher School of Economics-Moscow and Research Assistant at the laboratory of educational buildings.
Annotation: В представляемой работе исследуются возможности современных нейросетевых моделей при решении задачи автоматического поиска ошибок интерференции в текстах на иностранном (английском) языке, созданных русскоязычными студентами. В докладе будет представлена система разметки мотивированных интерференцией ошибок, мультиклассовый классификатор, который представляет собой дотренированную на размеченных предложениях roberta-base, а также будут рассмотрены различные подходы к аугментации данных для такой задачи. В ряду таких подходов рассматривается GAN, дообучение моделей distilgpt2 и GPT2, использование больших языковых моделей, использование линейного кода на сгенерированных правильных предложениях. В результате сравнения успешности классификатора, дообученного на реальных данных, и разных конфигурациях аугментированных датасетов, полученных с помощью вышеупомянутых методов, будет сделан вывод о том, что самым лучшим качеством разметки обладает классификатор, дообученный на датасете из реальных данных и данных, аугментированных с помощью линейного кода.