Семинар BayesLab «Обучаемый ремаскер для немарковской маскированной диффузии»
Артём Макоян расскажет о новом методе ремаскации токенов для диффузионных моделей, позволяющем исправлять ошибки при генерации текста с улучшением качества и скорости.
Во вторник, 14 октября 2025 г. в 18:00 Артём Макоян, студент магистратуры из Constructor University of Bremen и стажер в JetBrains, выступит с докладом «Обучаемый ремаскер для немарковской маскированной диффузии», посвящённым новому методу ремаскации токенов для диффузионных моделей, позволяющем исправлять ошибки при генерации текста.
Диффузионные модели – современное SOTA в задачах для генерации картинок. Однако они до сих пор не могут сравняться с авторегрессионными моделями в генерации текстов. Теоретически, они обладают возможностью исправлять свои ошибки в процессе генерации в отличие от авторегрессионных моделей, которые генерируют токены слева-направо. Но на практике, современные модели маскированной диффузии не могут исправлять токен, который они уже демаскировали, тем самым теряя свое фундаментальное преимущество. Мы представляем новый метод генерации, имеющий возможность исправлять сделанные ошибки и требующий дообучения лишь одного слоя. В нашей работе мы показываем, что предлагаемый метод ремаскации токенов значительно ускоряет процедуру генерации и улучшает качество получаемого текста по сравнению с альтернативными подходами, а также позволяет добиться прироста на бенчмарках для больших текстовых диффузионных моделей.
Выступление пройдёт в Zoom с возможностью очного участия в аудитории 503 корпуса D НИУ ВШЭ (Покровский бульвар, д. 11). Начало состоится в 18:00 по Московскому времени.
