Семинар BayesLab «ImageReFL: Баланс качества и разнообразия в диффузионных моделях, согласованных с человеком»
Аудитория S328
Во вторник, 24 июня 2025 г. в 18:00 Максим Находнов, сотрудник Научно-исследовательского института AIRI, выступит с докладом «ImageReFL: Баланс качества и разнообразия в диффузионных моделях, согласованных с человеком».
В последние годы диффузионные модели стали одним из ведущих инструментов для генерации изображений, демонстрируя впечатляющие результаты в качестве и разнообразии. Паралельно RL-based методы получили широкое распространение в разных областях машинного обучения. В наших работах мы применяем RL подходы для разных задач Text-to-Image генерации: учёт пользовательских предпочтений и персонализированная генерация. Данные работы отражают крайние варианты RL обучения — on-policy (ReFL-like) и off-policy (DPO-line) подходы.
В нашей статье «ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models» мы исследуем методы дообучения диффузионных моделей на основе пользовательских предпочтений для повышения качества генерации изображений.
Существующие методы оптимизации (ReFL, DraftK, DRTune, AlignProp) страдают от reward hacking — модель переобучается на модель награды, что снижает разнообразие изображений. Мы предлагаем метод комбинированной генерации, позволяющий управлять балансом между качеством и разнообразием, а также новый способ дообучения, который позволяет повысить разнообразие без потери качества.
Во второй статье «DreamBooth DPO: Controllable Trade-off between Image Fidelity and Prompt Adherence» мы представляем метод автоматической генерации пар “лучшее–хуже” для DPO-дообучения, который без участия человека одновременно улучшает точность следования промпту и сохранение уникального визуального концепта.
Выступление пройдёт в аудитории 328 корпуса S НИУ ВШЭ (Покровский бульвар, д. 11) с возможностью онлайн-участия в Zoom. Начало состоится в 18:00 по Московскому времени.
Статья «ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models»
Статья «DreamBooth DPO: Controllable Trade-off between Image Fidelity and Prompt Adherence»