Саяк Пол из Hugging Face: Как трансформеры захватили мир диффузионных моделей

Stanford Online 27,2 тыс. 1 ч 14 мин 4 мин 24.06.2025
Главное

В рамках курса Stanford CS25 Саяк Пол, ведущий инженер из Hugging Face, представил глубокий технический обзор эволюции диффузионных моделей. Главная тема выступления — масштабный переход индустрии от традиционных сверточных архитектур (UNet) к архитектурам на базе трансформеров, таким как DiT и MMDiT, которые сегодня лежат в основе Stable Diffusion 3, Flux и Sora.

🎨 От шума к изображению: Основы диффузии 2:44

Диффузионные модели представляют собой итеративный процесс превращения случайного гауссова шума в реалистичное изображение . В отличие от GAN (генеративно-состязательных сетей), которые работают «в один проход», диффузия последовательно очищает данные от шума.

Саяк Пол выделяет ключевые компоненты современной системы генерации текста в изображение:

По мнению Пола, сегодня доминируют модели в латентном пространстве (Latent Space Diffusion), так как работа напрямую с пикселями слишком затратна с точки зрения вычислений . Новым трендом становится Flow-matching (используется в Flux и SD3), где путь от шума к данным моделируется как прямая линия, что упрощает обучение .

🏗️ Почему UNet уходит в прошлое? 13:47

Долгое время архитектура UNet была стандартом в генерации изображений (начиная с DDPM и заканчивая SDXL в 2023 году). Однако Саяк Пол называет структуру гигантских UNet «плохими новостями» для разработчиков из-за их невероятной сложности .

Проблемы традиционного UNet:

Саяк Пол утверждает, что переход к чистым трансформерам был неизбежен, чтобы использовать все наработки из области NLP и Vision Transformers (ViT) .

🚀 DiT: Диффузионный трансформер 21:29

Архитектура DiT (Diffusion Transformer) сохраняет стандартный проход Vision Transformer, но адаптирует его под задачи генерации.

Технические особенности DiT:

Эксперименты показывают, что adaLN значительно превосходит кросс-внимание при работе с простыми условиями, такими как метки классов, и при этом требует меньше ресурсов .

📝 PixArt-alpha: Текст вместо классов 28:45

Модель PixArt-alpha стала одним из первых шагов к полноценному использованию DiT для генерации по тексту. Саяк Пол выделяет несколько ключевых решений этого проекта:

При размере всего в 0.6 млрд параметров PixArt-alpha показала впечатляющую точность следования инструкциям (prompt following) .

🔍 Решение проблемы 4K и квадратичной сложности 42:28

Стандартное внимание (Attention) имеет квадратичную сложность. При генерации изображений в высоком разрешении (например, 4K) объем оперативной памяти может достигать 190 ГБ даже для одного изображения .

Для решения этой проблемы была предложена архитектура SANA:

  1. Линейное внимание: Вместо стандартного механизма $N \times N$ используется линейный вариант, где сложность ограничена $O(N)$ .
  2. Mix-FFN блоки: Поскольку при линейном внимании теряется локальность патчей, в модель добавляются небольшие сверточные слои для восстановления связей между соседними пикселями .
  3. Отказ от позиционных эмбеддингов: Использование сверток в Mix-FFN позволило полностью отказаться от явного указания позиций (NoPe — No Positional Embeddings) .

💎 Stable Diffusion 3 и MMDiT 48:11

В Stable Diffusion 3 была представлена архитектура MMDiT (Multi-modal Diffusion Transformer). Главная идея здесь — разделение модальностей. По мнению Пола, объединение текста и изображений в одном пространстве на ранних этапах приводит к наследованию взаимных смещений (biases) .

Особенности MMDiT:

Саяк Пол отмечает, что MMDiT — это «вычислительно ненасытная» архитектура . Чтобы оптимизировать её, современные модели (например, Flux от Black Forest Labs) используют комбинацию из MMDiT-блоков и стандартных DiT-блоков, где модальности объединяются после первичной обработки .

🛠️ Будущее: Контроль, Видео и In-Context Learning 1:08:43

В завершение Саяк Пол обозначил горизонты развития отрасли:

Саяк Пол также пригласил всех изучать библиотеку diffusers от Hugging Face, где реализованы практически все упомянутые модели в открытом доступе .

💬 Цитаты

«UNet для диффузии гигантский. Это одна из причин, почему вы, вероятно, захотите от него избавиться.»

«Если вы ищете по-настоящему ультра-реалтайм генерацию, я думаю, GAN все еще остаются лучшим выбором.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
adaLN (Adaptive Layer Normalization)
Метод внедрения условий (например, текста) в нейросеть путем изменения параметров нормализации слоев.
Flow-matching
Альтернатива диффузии, которая обучает модель перемещать точки данных по прямым траекториям от шума к изображению.
MMDiT
Мультимодальный диффузионный трансформер, использующий разные наборы весов для текста и изображений.
Латенты (Latents)
Сжатое математическое представление данных, в котором работает нейросеть перед тем, как превратить их в пиксели.
📊 Цифры
🗓 Хронология
  1. 2023 Выпуск SDXL, последней крупной модели на базе архитектуры UNet.
  2. 2023 Появление PixArt-alpha, внедрившей эффективный DiT для генерации текста в изображения.
  3. 2024 Релиз Stable Diffusion 3 с архитектурой MMDiT.
⚖️ Другая сторона
Искусственный интеллект DiT MMDiT Hugging Face Stable Diffusion 3 Flow-matching