Диффузионные модели: новая эра генерации изображений

Yannic Kilcher 167 тыс. 54 мин 2 мин 15.05.2021
Главное

🤖 Диффузионные модели против GAN: новая эра генерации изображений 0:00

Янник Кильхер в своем обзоре анализирует прорывные исследования в области генеративных моделей, где авторы из OpenAI демонстрируют, что диффузионные модели (DDPM) способны превзойти традиционные GAN (Generative Adversarial Networks) по качеству синтеза изображений. Исследование, представленное в работе «Diffusion Models Beat GANs on Image Synthesis», меняет ландшафт генеративного ИИ, предлагая более устойчивый подход к обучению моделей, основанный на обращении процесса зашумления данных.

🌫️ Философия процесса: от данных к шуму и обратно 4:16

Суть метода заключается в создании процесса, который постепенно разрушает структуру изображения, превращая его в чистый шум, а затем учится восстанавливать исходные данные из этого шума.

По мнению Кильхера, основным преимуществом здесь является то, что этот процесс математически более понятен, чем обучение GAN, которые часто страдают от нестабильности и сложности настройки.

🛠️ Ключевые технические улучшения 27:59

Авторы внесли ряд изменений, которые позволили DDPM достичь конкурентоспособных результатов:

  1. Обучение ковариации: Вместо того чтобы фиксировать матрицу ковариации, исследователи научили сеть предсказывать параметр интерполяции $v$ между теоретическими верхней и нижней границами шума. Это решение позволило модели эффективнее работать с распределением шума.
  2. Cosine-график зашумления: Традиционный линейный график зашумления часто слишком быстро «убивает» информацию. Новый косинусный график (cosine schedule) делает процесс зашумления более плавным, повышая полезность каждого шага.
  3. Гибридная функция потерь: Авторы отказались от простого L2-расстояния в пользу комбинированного подхода, снижающего уровень шума в процессе обучения.
  4. Важное сэмплирование (Importance Sampling): Поскольку первые шаги «восстановления» изображения вносят наибольший вклад в итоговую ошибку (loss), алгоритм сэмплирует их чаще, фокусируясь на наиболее проблемных этапах обучения.

🎯 Классификаторное руководство (Classifier Guidance) 40:39

Одним из самых значимых достижений является использование стороннего классификатора для направления процесса генерации.

По словам Кильхера, это приближает диффузионные модели к методам score-based генерации, позволяя достичь высокой детализации, которая ранее была прерогативой исключительно GAN. Также авторы применили трюк с «остротой» (peakiness) градиентов классификатора, масштабируя их через гиперпараметры, что устранило характерную для старых VAE размытость изображений.

🏁 Будущее генеративных моделей 53:07

Кильхер отмечает, что хотя диффузионные модели требуют больше вычислительных затрат на этапе генерации (множество проходов через сеть), современные методы, такие как использование лишь 25 шагов (вместо тысяч), делают их весьма эффективными. Он предполагает, что GAN и диффузионные модели могут начать «заимствовать» идеи друг у друга — например, использование дискриминаторов на каждом промежуточном этапе диффузии. На данный момент результаты FID (Frechet Inception Distance) подтверждают, что диффузионные модели как минимум на равных соревнуются с лучшими архитектурами GAN.

💬 Цитаты

«В этой статье они уже в названии прямо говорят: это побеждает GAN.»

Янник Кильхер 0:44

«Это своего рода вечная война между теми, кто делает математически корректные вещи, и теми, кто просто выбрасывает всё, что не влияет на итоговое качество.»

Янник Кильхер 50:28
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
DDPM
Denoising Diffusion Probabilistic Models — класс генеративных моделей, основанных на обращении процесса добавления шума.
GAN
Generative Adversarial Networks — тип нейросетевой архитектуры, состоящей из двух сетей, соревнующихся друг с другом.
FID
Frechet Inception Distance — метрика для оценки качества изображений, сгенерированных нейросетями.
Classifier Guidance
Метод использования стороннего классификатора для направления процесса генерации к определенному результату.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DDPM GAN OpenAI Image Synthesis