Диффузионные модели: новая эра генерации изображений

🤖 Диффузионные модели против GAN: новая эра генерации изображений 0:00

Янник Кильхер в своем обзоре анализирует прорывные исследования в области генеративных моделей, где авторы из OpenAI демонстрируют, что диффузионные модели (DDPM) способны превзойти традиционные GAN (Generative Adversarial Networks) по качеству синтеза изображений. Исследование, представленное в работе «Diffusion Models Beat GANs on Image Synthesis», меняет ландшафт генеративного ИИ, предлагая более устойчивый подход к обучению моделей, основанный на обращении процесса зашумления данных.

🌫️ Философия процесса: от данных к шуму и обратно 4:16

Суть метода заключается в создании процесса, который постепенно разрушает структуру изображения, превращая его в чистый шум, а затем учится восстанавливать исходные данные из этого шума.

Прямой процесс (Forward Process): Исходное изображение зашумляется итеративно на протяжении множества шагов (в исходных работах — 1000, в новых экспериментах — до 4000). Постепенно распределение данных приближается к изотропному гауссовскому распределению.
Обратный процесс (Reverse Process): Ключевая задача — обучить нейросеть «обращать» этот процесс. Если сеть знает, как шум был добавлен, она может приблизительно восстановить исходное изображение, имея на входе только зашумленную версию.

По мнению Кильхера, основным преимуществом здесь является то, что этот процесс математически более понятен, чем обучение GAN, которые часто страдают от нестабильности и сложности настройки.

🛠️ Ключевые технические улучшения 27:59

Авторы внесли ряд изменений, которые позволили DDPM достичь конкурентоспособных результатов:

Обучение ковариации: Вместо того чтобы фиксировать матрицу ковариации, исследователи научили сеть предсказывать параметр интерполяции $v$ между теоретическими верхней и нижней границами шума. Это решение позволило модели эффективнее работать с распределением шума.
Cosine-график зашумления: Традиционный линейный график зашумления часто слишком быстро «убивает» информацию. Новый косинусный график (cosine schedule) делает процесс зашумления более плавным, повышая полезность каждого шага.
Гибридная функция потерь: Авторы отказались от простого L2-расстояния в пользу комбинированного подхода, снижающего уровень шума в процессе обучения.
Важное сэмплирование (Importance Sampling): Поскольку первые шаги «восстановления» изображения вносят наибольший вклад в итоговую ошибку (loss), алгоритм сэмплирует их чаще, фокусируясь на наиболее проблемных этапах обучения.

🎯 Классификаторное руководство (Classifier Guidance) 40:39

Одним из самых значимых достижений является использование стороннего классификатора для направления процесса генерации.

Как это работает: Во время обратного процесса к результату работы диффузионной модели добавляется градиент классификатора, обученного на noisy-данных.
Эффект: Это позволяет «подталкивать» процесс генерации в сторону нужного класса (например, «дом» или другой объект), делая результат более точным и качественным.

По словам Кильхера, это приближает диффузионные модели к методам score-based генерации, позволяя достичь высокой детализации, которая ранее была прерогативой исключительно GAN. Также авторы применили трюк с «остротой» (peakiness) градиентов классификатора, масштабируя их через гиперпараметры, что устранило характерную для старых VAE размытость изображений.

🏁 Будущее генеративных моделей 53:07

Кильхер отмечает, что хотя диффузионные модели требуют больше вычислительных затрат на этапе генерации (множество проходов через сеть), современные методы, такие как использование лишь 25 шагов (вместо тысяч), делают их весьма эффективными. Он предполагает, что GAN и диффузионные модели могут начать «заимствовать» идеи друг у друга — например, использование дискриминаторов на каждом промежуточном этапе диффузии. На данный момент результаты FID (Frechet Inception Distance) подтверждают, что диффузионные модели как минимум на равных соревнуются с лучшими архитектурами GAN.