Совместный семинар Центра ИИ НИУ ВШЭ и МТS AI
Диффузионные модели (DDPM) привели к прорыву в генеративном моделировании, потому что они позволяют эффективно генерировать новые данные за несколько шагов, что приводит к высокому качеству генерируемых объектов. В то время как другие модели, например, генеративные состязательные сети (GAN) требуют требуют тонкой настройки из-за теоретических изъянов, а значит ограничены в своих возможностях. Диффузионные модели преодолевают эту проблему.
В отличие от других моделей, они гарантированно покрывают многообразие данных и эффективно распространяют информацию о текстуре и структуре данных в процессе генерации. Это позволяет диффузионным моделям генерировать высококачественные и разнообразные данные при достаточном количестве шагов генерации. Благодаря этому, диффузионные модели стали мощным инструментом для генеративного моделирования в различных областях, таких как обработка изображений или звука.
Ученые Центра ИИ НИУ ВШЭ представили коллегам из МТС AI новый метод – звездообразный DDPM (SS-DDPM), который позволяет обойти необходимость использования гауссовского зашумления в диффузионных моделях. Этот метод может использоваться в генерации изображений или звуков из негауссовского шума и показывает лучшее качество, по сравнению с другими методами.
Ветров Дмитрий Петрович
Профессор-исследователь НИУ ВШЭ, заведующий Центром глубинного обучения и байесовских методов
Наш метод позволяет обучать генеративные модели на тех же принципах, что диффузионные модели, но с использованием широкого спектра зашумляющих распределений. Стандартные диффузионные модели используют гауссовское зашумление, которое выглядит естественным, когда объекты описываются параметрами, живущими в евклидовом пространстве. Для многих предметных доменов это не так. Например, один из способов описания трехмерных молекул использует попарные расстояния и углы между атомами. В этом случае часть переменных задают атомы, входящие в молекулу, то есть, являются категориальными переменными; часть параметров (расстояния) могут принимать только неотриицательные значения; часть параметров (углы) принимают значения из интервала, причем концы интервала соответствуют одному и тому же углу. Разработанная нами модель позволяет эффективно учесть специфику данных и использовать подходящие для них зашумляющие распределения. Благодаря этому удается улучшить качество генерации чистых данных.
Охотин Андрей Сергеевич
Центр глубинного обучения и байесовских методов, стажер-исследователь
Гауссовское зашумление в диффузионных моделях успешно применяется в задачах, где данные лежат в обычном евклидовом пространстве, т.е. подчиняются стандартным законам геометрии. Гауссовское зашумление не нарушает правила геометрии в этом пространстве, но существует множество задач, где данные содержат определенную структуру и живут в гораздо более сложных многообразиях. Стандартные гауссовские диффузионные модели не способны эффективно выучивать геометрию таких пространств, поэтому возникает необходимость найти более естественные способы зашумления. Разработанный метод позволяет обобщить классические диффузионные модели, сняв ограничение марковости с процесса зашумления. А сняв ограничение марковости с процесса генерации, удается эффективно обучить генеративную нейронную сеть.
Центр ИИ НИУ ВШЭ регулярно проводит научные семинары с МТS AI. Такое сотрудничество позволяет поделиться экспертными знаниями и исследовательскими ресурсами, которые могут быть полезны для решения прикладных задач индустриального партнера.
Проект «Разработка и верификация моделей условной генерации для улучшения качества звука и изображений» реализуется при поддержке индустриального партнера – ООО «Центр ИИ МТС».