Эволюция генеративных моделей: от состязательных сетей до Google Veo 3

Стэндфордский университет в рамках обновленного курса CS231N представил детальный разбор генеративных моделей глубокого обучения второго поколения. В центре внимания лекции находятся скрытые модели плотности (Implicit Density Models), совершившие колоссальный технологический скачок за последние годы. На смену капризным генеративно-состязательным сетям (GAN) пришли мощные диффузионные архитектуры и выпрямленные потоки (Rectified Flow), на базе которых построены самые передовые современные инструменты генерации медиаконтента, включая новейший инструмент Google Veo 3.

🔄 Ретроспектива: эволюция подходов к плотности данных 0:05

Прежде чем перейти к новым архитектурам, необходимо вспомнить фундаментальное разделение вероятностных моделей на дискриминативные и генеративные. Дискриминативные модели предсказывают метку $Y$ на основе данных $X$, тогда как генеративные стремятся выучить истинное распределение самих данных $X$. Главное различие между ними кроется в условиях нормализации вероятностей. В рамках явных моделей плотности (Explicit Density Models) исследователи долгое время опирались на два подхода: авторегрессионные модели, разбивающие данные (например, пиксели изображений со значениями от 0 до 255) в последовательность для RNN или трансформеров, и вариационные автокодировщики (VAE), вычисляющие приближенную нижнюю границу правдоподобия.

🎭 Генеративно-состязательные сети: математическая дуэль 3:09

Новый этап генеративного моделирования связан со скрытыми моделями плотности (Implicit Density Models), ярким представителем которых являются генеративно-состязательные сети (GAN). В отличие от предшественников, GAN полностью отказываются от прямого моделирования функции плотности $P(X)$. Вместо этого они предлагают эффективный способ прямого семплирования из целевого распределения Вселенной ($P_{data}$), которое формируется под влиянием физических, исторических и социально-политических факторов.

[Image of generative adversarial network architecture]

Процесс устроен следующим образом: скрытая переменная $Z$ из простого априорного распределения (например, стандартного гауссиана) пропускается через сеть-генератор ($G$), формируя индуцированное распределение $P_G$. Чтобы заставить $P_G$ соответствовать реальному $P_{data}$, авторы концепции отказались от ручного подбора функций потерь, переложив эту задачу на вторую нейросеть — дискриминатор ($D$). Математически это противостояние описывается как минимаксная игра со следующей целевой функцией:

$$\min_G \max_D V(G,D) = \mathbb{E}{x \sim p{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$$

Дискриминатор стремится максимизировать функцию $V$, выдавая единицу для реальных данных и ноль для подделок. Генератор же пытается минимизировать её, заставляя дискриминатор ошибаться.

Однако, по мнению лектора, классический график функции $V$ абсолютно не отражает реальный прогресс обучения, из-за чего обучение GAN часто называют «чтением на кофейной гуще». Оптимизация этой среды фундаментально нестабильна. На ранних этапах обучения, когда генератор выдает случайный шум, дискриминатор мгновенно учится его распознавать, из-за чего градиенты генератора затухают. Для решения этой проблемы на практике применяют модифицированный лосс — вместо минимизации вероятности успеха дискриминатора, генератор максимизирует логарифм вероятности его ошибки.

Несмотря на теоретическое доказательство того, что глобальный оптимум достигается строго при $P_G = P_{data}$, теория предполагает бесконечную емкость сетей, чего в реальности не бывает. Тем не менее, такие исторические вехи, как архитектура DCGAN Алека Рэдфорда (который позже создал GPT-1 и GPT-2 в OpenAI) и StyleGAN 3, доказали способность состязательных сетей формировать плавное непрерывное латентное пространство, где объекты могут буквально «морфировать» друг в друга. Главная плата за четкие изображения в GAN — невозможность осуществить обратное отображение из пространства картинок $X$ в латентные коды $Z$.

🌪️ Геометрия Rectified Flow и триумф диффузии 30:47

На смену эпохе состязательных сетей пришли диффузионные модели. Прорываясь сквозь нагромождения сложнейших математических формализмов, лектор предлагает интуитивный геометрический взгляд на базе концепции выпрямленных потоков (Rectified Flow). В отличие от GAN, диффузия требует, чтобы латентный шум $Z$ имел строго ту же размерность, что и исходное изображение.

Суть метода заключается в симуляции процесса постепенного зашумления данных от уровня $t = 0$ (чистое изображение кота) до $t = 1$ (абсолютный гауссовский шум). Во время обучения алгоритм берет пару из чистого кадра $X$ и шума $Z$, строит между ними прямую линию и выбирает случайную промежуточную точку $X_t$ при случайном уровне $t \in [0, 1]$. Задача нейросети $f_\theta(X_t, t)$ — предсказать вектор скорости $V = Z - X$, направленный от данных к шуму.

Ключевые преимущества Rectified Flow перед GAN:

Наличие стабильной функции потерь (MSE), стабильно снижающейся в процессе оптимизации.
Отсутствие необходимости балансировать две враждующие системы.
Плавный экспоненциальный график лосса, избавляющий инженеров от неопределенности.

На этапе инференса процесс разворачивается вспять: мы берем чистый шум и маленькими шагами (обычно от 30 до 50 итераций) движемся в обратном направлении от $t = 1$ к $t = 0$, постепенно удаляя шум по предсказаниям вектора скорости.

🛠️ Направленный взрыв: Classifier-Free Guidance 45:20

Безусловная генерация лишена практического смысла, поэтому в современной индустрии используются условные модели (Conditional Models), где генерацией управляет текстовый промпт или класс объекта. Однако при наивном обучении нейросети часто игнорируют управляющий сигнал. Для преодоления этого дефекта применяется элегантный трюк под названием Classifier-Free Guidance (CFG).

В процессе обучения с вероятностью 50% управляющий сигнал намеренно уничтожается (заменяется на нулевое значение). Таким образом, одна и та же модель учится вычислять два разных вектора скорости:

Условный вектор $v_y$, направляющий генерацию к специфическому подмножеству данных.
Безусловный вектор $v_{null}$, указывающий на центр общего распределения данных.

Во время финального семплирования применяется линейная комбинация этих векторов с весовым гиперпараметром $w$:

$$v_{cfg} = (1 + w) \cdot v_y - w \cdot v_{null}$$

Повышая коэффициент $w$, разработчики могут заставить модель гиперболизировать и максимально строго отрабатывать текстовый запрос. По словам лектора, платой за этот критически важный для качества трюк является двукратное увеличение вычислительной стоимости инференса, поскольку на каждом шаге сеть приходится запускать дважды.

📉 Расписания шума и латентные диффузионные трансформеры (DiT) 50:58

Равномерное распределение шагов по времени обучения неэффективно: крайние точки ($t=0$ и $t=1$) тривиальны для сети, так как требуют лишь предсказания средних значений распределений. Самая сложная математическая и когнитивная работа происходит посередине, где траектории множества разных изображений пересекаются. Для этого применяются специальные нелинейные расписания, такие как Logit-Normal sampling, смещающие фокус на центральные участки диффузии.

Прямая генерация картинок высокого разрешения в пространстве пикселей невозможна из-за колоссальной вычислительной сложности. Решением стали латентные диффузионные модели (Latent Diffusion Models, LDM). На первом этапе обучается автокодировщик (обычно VAE), который пространственно сжимает картинку в 8 раз, переводя ее, например, в 16-канальное латентное представление. Затем этот кодировщик замораживается, и диффузионная модель обучается исключительно внутри компактного скрытого пространства.

Парадокс современного генеративного пайплайна заключается в том, что он объединил в себе все исторические архитектуры. Лектор подчеркивает, что поскольку чистый VAE выдает размытые результаты, декодер усиливают дискриминатором из GAN для достижения четкости, а внутри скрытого пространства работает диффузия. В качестве базовых блоков сегодня доминируют диффузионные трансформеры (DiT), куда временные метки внедряются через механизмы Scale-Shift модуляции, а текст — через Cross-Attention.

🎬 Эпоха видеогенерации: от Flux к триумфу Google Veo 3 57:27

Практическое воплощение этих идей привело к созданию мощных открытых систем генерации изображений, таких как Flux.1 dev с 12 миллиардами параметров, использующая текстовые энкодеры T5 и CLIP. Переход от картинок к генерации видео потребовал добавления в латентное пространство временной оси. Главной проблемой видеомоделей стал резкий взрыв длины обрабатываемых последовательностей: если Flux работает с 1024 токенами, то современным видеосистемам приходится обрабатывать до 76 000 токенов для обеспечения высокой частоты кадров.

Историческим прорывом и «четырехминутной милей» для индустрии стала публикация модели Sora от OpenAI в марте 2024 года, которая продемонстрировала беспрецедентное масштабирование DiT на базе выпрямленных потоков. С тех пор рынок переживает еженедельную смену лидеров. Прямо в день проведения лекции, в 11:00 утра, компания Google совершила очередной рывок, анонсировав модель Veo 3. По оценке лектора, на текущий момент это лучшая видеогенеративная нейросеть в мире, способная одновременно и неразрывно генерировать не только сложнейшие визуальные сцены по тексту, но и соответствующий им пространственный звук.

🏎️ Проблема скорости и три кита диффузионной математики 1:02:25

Главный недостаток диффузии — низкая скорость инференса. Для решения этой проблемы развивается пласт алгоритмов дистилляции (Distillation), сжимающих 30–100 шагов генерации до нескольких или даже до одного шага, пусть и с некоторой потерей в детализации.

В завершение лекции спикер очертил три фундаментальных математических взгляда на то, почему диффузионные алгоритмы работают:

Модель со скрытыми переменными (Latent Variable Model). Интерпретирует диффузию через призму вариационных автокодировщиков (VAE) и максимизацию нижней границы правдоподобия (ELBO).
Согласование оценок (Score Matching). Опирается на функцию оценки $\nabla_x \log p_{data}(x)$ — векторное поле, указывающее направление к зонам максимальной плотности вероятности данных.
Стохастические дифференциальные уравнения (SDE). Рассматривает сеть как численный интегратор (например, метод Эйлера в Rectified Flow), переносящий образцы из распределения шума в распределение данных.

Для глубокого погружения в тему лектор настоятельно рекомендует серию публикаций исследователя Сандера Дилемана (Sander Dieleman) «Perspectives on Diffusion», описывающую сразу восемь альтернативных взглядов на эту прорывную технологию.