Стэнфордский курс CS236: Математика генеративно-состязательных сетей и парадокс правдоподобия

В рамках образовательного курса Stanford CS236, опубликованного на платформе Stanford Online, подробно рассматривается фундаментальный сдвиг в парадигме построения глубоких генеративных моделей. Главным сюжетом лекции становится переход от классических методов, опирающихся на явный расчет функции правдоподобия, к концепции генеративно-состязательных сетей (GAN), предложенной в 2014 году. Преподаватель Стэнфордского университета анализирует математические причины, по которым традиционные подходы уступают состязательным парадигмам в задачах синтеза высококачественного контента, и объясняет, почему в современной индустрии ИИ классические GAN начали уступать позиции диффузионным моделям.

🗺️ Эволюция генеративных моделей: от правдоподобия к состязанию 0:05

В области генеративного моделирования долгое время доминировал единый концептуальный подход. Исследователи исходят из предпосылки, что доступный набор данных представляет собой независимые и одинаково распределенные (IID) сэмплы из некоторого неизвестного истинного распределения вероятностей $P_{data}$. Задача построения модели сводится к выбору параметризованного семейства распределений $P_\theta$ (обычно задаваемого нейронными сетями) и последующей оптимизации параметров $\theta$ ради минимизации дистанции между $P_{data}$ и $P_\theta$.

До появления состязательного подхода доминировали три основных класса архитектур:

Авторегрессионные модели (Auto-regressive models): опираются на цепное правило теории вероятностей, разбивая задачу генерации на последовательность простых предсказаний каждого следующего элемента на основе предыдущих.
Вариационные автокодировщики (VAE): моделируют плотность распределения данных, по сути, как большую смесь распределений (mixture model) с введением скрытых переменных.
Нормализующие потоки (Normalizing Flows): используют детерминированные обратимые преобразования, позволяющие вычислять плотности распределения напрямую через правило замены переменных.

Все эти подходы объединяет критически важная общая черта: они требуют от модели способности оценивать вероятность, которую она приписывает любому конкретному объекту данных. Наличие доступа к функции правдоподобия открывает прямой путь к обучению моделей методом максимального правдоподобия (MLE), что эквивалентно минимизации дивергенции Кульбака — Лейблера (KL) между истинным распределением данных и модельным.

По мнению лектора, метод максимального правдоподобия обладает колоссальными теоретическими преимуществами. В идеальных условиях, при достаточной мощности модели и выполнении условий идентифицируемости, MLE является наиболее статистически эффективным способом использования данных. Это означает, что среди всех возможных целевых функций MLE сходится быстрее всего и требует наименьшего объема обучающей выборки для достижения корректного результата. Кроме того, максимизация правдоподобия эквивалентна задаче оптимального сжатия данных: способность эффективно сжимать информацию доказывает глубокое понимание скрытых паттернов и структур внутри датасета.

❌ Парадокс правдоподобия: почему высокие метрики не гарантируют качество 6:37

Несмотря на строгую математическую обоснованность, оптимизация функции правдоподобия в практических задачах (например, при генерации изображений) часто приводит к неудовлетворительным результатам. Лектор подчеркивает фундаментальный парадокс: высокое значение функции правдоподобия в suboptimal-моделях может соседствовать с отвратительным визуальным качеством генерируемых сэмплов, и наоборот — модели, создающие невероятно реалистичные изображения, могут демонстрировать крайне низкое правдоподобие на тестовой выборке.

Если модель идеальна и дивергенция равна нулю, проблема исчезает. Однако на практике все модели несовершенны, и в этой зоне несовершенства метрика MLE перестает коррелировать с перцептивным качеством. Чтобы доказать это, преподаватель приводит математический пример гипотетической модели, представляющей собой смесь двух распределений:

$$P_{model} = 0.01 \cdot P_{data} + 0.99 \cdot P_{noise}$$

В рамках этого мысленного эксперимента модель с вероятностью 99% генерирует чистый, несвязный мусор (белый шум) и лишь в 1% случаев выдает идеальный сэмпл из истинного распределения. Очевидно, что визуальное качество работы такой системы неприемлемо. Однако при оценке логарифма правдоподобия для реального объекта данных $x$ значение функции под логарифмом оказывается не меньше, чем $0.01 \cdot P_{data}(x)$. Математический вывод показывает:

$$\log P_{model}(x) \ge \log P_{data}(x) - \log 100$$

При переходе к пространствам высокой размерности (например, к изображениям с миллионами пикселей) истинное значение логарифма правдоподобия $\log P_{data}(x)$ масштабируется линейно в зависимости от количества измерений. В то же время штраф в виде константы $-\log 100$ остается неизменным. В результате в многомерном пространстве модель, выдающая мусор в 99% случаев, по метрике лог-правдоподобия оказывается практически неотличима от идеального распределения Земли.

Обратный пример — ситуация тотального переобучения (overfitting). Если модель просто заучивает обучающую выборку наизусть и распределяет плотность вероятности строго равномерно по известным картинкам, качество генерации индивидуальных сэмплов будет безупречным. Однако при валидации на тестовом наборе данных (который модель не видела) функция правдоподобия упадет до нуля (или логарифм устремится к минус бесконечности), поскольку любой новой точке будет приписана нулевая вероятность. Это вынуждает исследователей искать альтернативные критерии сходства распределений, изолированные от прямого подсчета плотностей вероятностей.

🔬 Концепция двухвыборочного теста и крах ручных статистик 21:15

Идея, легшая в основу GAN, опирается на статистический метод, известный как двухвыборочный тест (two-sample test). Представим, что у исследователя есть две группы сэмплов: выборка $S_1$ из неизвестного распределения $P$ и выборка $S_2$ из распределения $Q$. Задача теста — проверить нулевую гипотезу $H_0$, утверждающую, что оба набора данных порождены одним и тем же распределением ($P = Q$). Если любой алгоритм проверки стабильно проваливает попытки найти различия между выборками, это служит сильнейшим доказательством близости распределений.

Исторически для этого применялись фиксированные, собранные вручную тест-статистики. Можно сравнить средние значения выборок, их дисперсии или моменты более высоких порядков. Однако в многомерных пространствах (pixel space) ручной подбор статистик полностью капитулирует:

Сравнение только средних значений (means) позволит отличить два смещенных распределения Гаусса, но окажется бесполезным, если у них совпадают центры, но различаются радиусы (дисперсии).
Даже если сопоставить и среднее значение, и дисперсию, распределения могут иметь принципиально разную геометрическую форму (например, классический Гаусс против распределения Лапласа).
В пространствах с огромным количеством признаков (изображения, текст) существует бесконечное множество тонких скрытых характеристик, которые невозможно предугадать и заложить в жесткую математическую формулу теста.

Попытка обучать генератор на основе фиксированной ручной статистики приведет к тому, что нейросеть научится идеально подгонять сэмплы под конкретный проверяемый критерий (например, подгонит средний цвет пикселей), но сами изображения останутся неестественными, поскольку модель проигнорирует не учтенные в тесте взаимосвязи между признаками.

🛡️ Дискриминатор как обучаемый цензор 33:58

Вместо использования статической формулы авторы концепции GAN предложили революционный шаг: обучать проверяющую тест-статистику параллельно с генерацией. Для автоматического поиска различий между реальными и синтетическими данными привлекается стандартный инструмент машинного обучения — бинарный классификатор, получивший название дискриминатор.

Его задача тривиальна для систем глубокого обучения: получить на вход объект и определить, принадлежит ли он к классу реальных данных (выборка $S_1$, метка 1) или к классу искусственно сгенерированных (выборка $S_2$, метка 0). В качестве тест-статистики в данном случае выступает взятая с отрицательным знаком функция потерь (loss) этого классификатора. Если потери классификатора низкие, значит, реальное и фейковое распределения легко разделимы и они далеки друг от друга; если потери стремятся к максимуму, классификатор дезориентирован, что свидетельствует о высоком сходстве выборок.

Этот маневр дает колоссальное архитектурное преимущество:

Использование кросс-энтропии над бинарной переменной (метка класса 0 или 1) избавляет от необходимости вычислять сложнейшие многомерные интегралы плотности вероятности самих данных $x$.
На архитектуру нейросети дискриминатора не накладывается никаких ограничений: в отличие от авторегрессионных моделей или нормализующих потоков, здесь не требуется обратимость слоев или строго упорядоченные цепочки вычислений. Единственное требование — наличие софтмакса или сигмоиды на выходе для получения финальной вероятности.

Математический анализ показывает, что для фиксированного генератора теоретически оптимальный дискриминатор $D^*(x)$ выражается через точное соотношение плотностей вероятностей:

$$D^*(x) = \frac{P_{data}(x)}{P_{data}(x) + P_{model}(x)}$$

Если объект $x$ невозможен в модели, но присутствует в реальности, дискриминатор выдаст чистую единицу. Если же генератор достиг совершенства и распределения совпали ($P_{model} = P_{data}$), значение формулы для любой точки станет равным $0.5$. Это описывает состояние абсолютной растерянности классификатора, когда он может лишь случайно угадывать происхождение данных с вероятностью 50%.

🎲 Генератор и математика игры с нулевой суммой 52:10

Вторая половина архитектуры — генератор ($G_\theta$) — представляет собой детерминированное отображение, устроенное схожим с нормализующими потоками образом, но лишенное их жестких ограничений. Процесс генерации начинается со случайного вектора шума $Z$, извлекаемого из простого базового распределения (например, стандартного многомерного Гауссиана). Нейросеть $G_\theta$ трансформирует этот шум в целевой объект (картинку), при этом размерность скрытого пространства $Z$ и пространства данных $X$ может не совпадать, а само отображение не обязано быть обратимым. Нам не нужно знать, как рассчитать обратный переход от картинки к шуму, ведь функция правдоподобия модели нас больше не интересует.

Обучение GAN формулируется как минимаксная игра с нулевой суммой (MiniMax optimization) между двумя игроками, где целевая функция $V(D, G)$ имеет следующий вид:

$$\min_G \max_D V(D, G) = \mathbb{E}{x \sim P{data}}[\log D(x)] + \mathbb{E}_{z \sim P_z}[\log(1 - D(G(z)))]$$

Дискриминатор стремится максимизировать эту функцию, подтягивая свои предсказания для реальных данных к единице, а для фейковых — к нулю. Генератор, напротив, пытается минимизировать $V(D, G)$, настраивая свои параметры $\theta$ так, чтобы заставить дискриминатор ошибаться и присваивать искусственным сэмплам высокую вероятность.

Лектор приводит элегантное математическое доказательство: если подставить значение теоретически оптимального дискриминатора $D^*(x)$ внутрь минимаксной целевой функции, то задача оптимизации генератора в явном виде трансформируется в минимизацию дивергенции Йенсена — Шеннона (Jensen-Shannon Divergence, JSD):

$$V(D^*, G) = -\log 4 + 2 \cdot \text{JSD}(P_{data} \parallel P_{model})$$

Дивергенция Йенсена — Шеннона, в отличие от классической KL-дивергенции, строго симметрична ($\text{JSD}(P \parallel Q) = \text{JSD}(Q \parallel P)$), всегда неотрицательна и равна нулю тогда и только тогда, когда распределения идентичны. Таким образом, состязательная игра, несмотря на отсутствие явных расчетов вероятностей, математически гарантирует движение всей системы к глобальному оптимуму, где генерируемое распределение в точности совпадает с реальным.

⚖️ Практика и суровая реальность: почему индустрия выбирает диффузию 1:02:11

Резюмируя сильные стороны GAN, преподаватель выделяет три ключевых фактора: полное отсутствие ограничений на архитектуру генератора, высокую скорость работы (генерация происходит за один прямой проход через нейросеть, в отличие от пошаговых авторегрессионных вычислений) и превосходное визуальное качество отдельных сэмплов.

Однако практическая реализация этой математической концепции сталкивается с колоссальными трудностями. На практике обучение выглядит как попеременный шаг градиентного спуска/подъема: сначала на мини-батче обновляются веса дискриминатора, затем — веса генератора. Математическая теория гарантирует сходимость только в непрерывном бесконечном пространстве при бесконечно малых шагах, но в реальности дискретных нейросетей эта игра не имеет стабильной точки сходимости.

Ключевые дефекты практического применения GAN, выделенные в лекции:

Нестабильная оптимизация (Unstable optimization): кривые потерь генератора и дискриминатора не снижаются монотонно, а постоянно осциллируют (колеблются) на протяжении всего обучения.
Отсутствие критерия остановки: в GAN нет аналога метрики валидационного правдоподобия. По лоссам невозможно понять, когда модель улучшается, а когда начинает деградировать. Исследователям приходится останавливать обучение «на глаз», вручную просматривая сгенерированные картинки.
Коллапс моды (Mode Collapse): самый опасный дефект. Классическая KL-дивергенция штрафует модель за «непокрытие» зон, где есть реальные данные (mode-covering). JSD и состязательный лосс, напротив, склонны к поиску узких зон (mode-seeking). Генератор быстро нащупывает несколько типов изображений, которые гарантированно обманывают текущий дискриминатор (например, изображение идеальной цифры «1» в датасете MNIST), и полностью прекращает генерировать остальные классы данных (другие цифры), циклически перемещаясь между модами и теряя разнообразие выборки.

Существуют сотни эмпирических приемов и трюков для борьбы с этими проблемами — от искусственного зашумления данных до специфических регуляризаций (содержащихся в известном неофициальном своде рецептов GAN hacks). Однако, по мнению преподавателя, сугубо эмпирический характер этих решений и отсутствие строгих гарантий привели к тому, что на текущий момент индустрия во многом отказалась от классических GAN в пользу диффузионных моделей. Диффузионные системы предлагают стабильный, чистый и предсказуемый лосс, лишенный минимаксной нестабильности.

Тем не менее, состязательная идея не умерла окончательно. Она успешно интегрируется в современные гибридные архитектуры. Например, на конференциях (включая ICML) регулярно появляются работы, где дискриминаторы используются как финальные фильтры поверх диффузионных моделей или вариационных автокодировщиков для точечной корректировки перцептивного качества. В качестве исторического курьеза лектор напоминает, что именно на базе GAN была создана первая в истории ИИ-картина, проданная на аукционе Christie's за внушительные 432 500 долларов при скромных первоначальных оценках, что навсегда вписало эту архитектуру в историю компьютерных наук.