Дискретная диффузия против трансформеров: кто победит в генерации текста?

На открытой лекции Стэнфордского курса CS236 по глубоким генеративным моделям профессор Стефано представил прорывное исследование своей лаборатории, посвященное адаптации диффузионных алгоритмов под дискретные данные. Приглашенный спикер Аарон подробно изложил математические основы новой дискретной архитектуры, призванной составить конкуренцию доминирующим авторегрессионным трансформерам. Разработанный подход открывает новые горизонты в генерации текста, биологических последовательностей ДНК и оптимизации латентных пространств современных нейросетей.

🌐 Непрерывный мир против дискретной решетки 0:30

Аспирант Стэнфорда Аарон начинает лекцию с описания классической постановки задачи генеративного моделирования. Конечная цель исследователей всегда заключается в том, чтобы взять набор данных, распределенный по некоторому истинному закону $p_{data}$, и обучить параметризованную нейросетью модель $p_\theta$ аппроксимировать это распределение для последующей генерации новых уникальных образцов. По его забавному наблюдению, на подавляющем большинстве схем и графиков, иллюстрирующих принципы работы VAE, GAN или диффузии, в роли базовой модальности данных всегда выступают изображения — будь то фотографии собак или рукописные цифры.

Исследователь поясняет, что это далеко не случайное совпадение. Традиционные генеративные алгоритмы фундаментально опираются на допущение о непрерывности пространства данных, где пространство $\mathcal{X}$ эквивалентно вещественным числам в степени $d$ ($\mathbb{R}^d$), а каждый пиксель имеет плавный градиент интенсивности. В таком непрерывном спектре можно интерполировать точки в любом месте, и полученный результат останется валидным изображением. Дискретные же данные, по словам Аарона, представляют собой жесткую математическую решетку (lattice), где пространство определяется как ${1, \dots, n}^d$, где $n$ — фиксированный размер словаря, а $d$ — длина последовательности. Любая попытка сгенерировать промежуточное значение между узлами дискретной решетки лишена смысла, что делает работу с дискретными данными принципиально более трудной задачей.

🚀 Почему дискретные генеративные модели меняют правила игры 4:01

Переходя к вопросу о практической значимости дискретных пространств, Аарон упоминает инженеров из OpenAI, чьи масштабные языковые модели вроде ChatGPT кардинально изменили технологический ландшафт за последние годы. Естественный язык по своей природе дискретен, так как предложения состоят из цепочек строго разделенных токенов и слов. С математической точки зрения, предобучение больших языковых моделей (LLM pre-training) представляет собой не что иное, как попытку подогнать дискретную вероятностную модель под колоссальный массив данных интернет-масштаба.

Сфера применения таких моделей простирается далеко за пределы лингвистики. В естественных науках дискретные генеративные модели крайне востребованы для работы с цепочками ДНК, белковыми структурами и сложными молекулами. По мнению Аарона, контролируемый синтез новых белков и молекул способен оказать колоссальное влияние на медицину и повседневную жизнь человечества в ближайшем будущем. Кроме того, исследователь фиксирует неожиданное возвращение к дискретности в сфере компьютерного зрения: популярные системы вроде Stable Diffusion опираются на квантованные латентные пространства архитектур VQ-VAE и VQGAN. Спикер ссылается на недавние исследования специалистов из Google и CMU, показавшие, что полный отказ от непрерывных концепций в латентных слоях в пользу исключительно дискретных компонентов значительно улучшает качество финальных изображений. По оценке Аарона, это указывает на возможную скорую унификацию текстовых и визуальных модальностей в рамках единой дискретной парадигмы.

🛑 Почему матанализ мешает адаптировать GAN и потоки 6:52

Логичным шагом кажется попытка перенести успешные непрерывные подходы, такие как нормализующие потоки или GAN, на дискретное поле. Однако Аарон наглядно демонстрирует, почему прямая адаптация невозможна. В нормализующих потоках преобразование простого базового шума в сложные данные опирается на формулу замены переменных, которая буквально растягивает и сжимает непрерывное геометрическое пространство. Если применить эту логику к дискретной решетке и построить биективное отображение, формула замены переменных теряет силу, превращаясь в тривиальное равенство вероятностей. В результате базовое распределение обязано быть столь же сложным, как и целевое, что полностью лишает нормализующие потоки смысла.

В случае с генеративно-состязательными сетями (GAN) возникает непреодолимое препятствие при обратном распространении ошибки. Если заставить генератор выдавать дискретные токены, градиенты от дискриминатора попросту не смогут пройти сквозь дискретные узлы. Аарон лаконично резюмирует эту фундаментальную проблему: «У нас просто нет математического анализа (calculus)». Существующие архитектуры фатально привязаны к производным и непрерывным функциям.

Некоторые исследователи пытаются обойти это ограничение, внедряя токены в непрерывное пространство эмбеддингов, проводя диффузию там, а затем округляя результат до ближайшего соседа при генерации — по аналогии с пикселями. Однако Аарон подчеркивает, что если для пикселей в диапазоне от 0 до 255 это работает из-за их естественного порядка на числовой прямой, то высокоразмерные пространства текстовых эмбеддингов в основном пусты. Интерполяция между словами часто выдает бессмыслицу, и эта проблема глубоко укоренена в теории графов. По мнению спикера, непрерывная диффузия над текстовыми эмбеддингами дает плохое индуктивное смещение, из-за чего такие модели исторически не могли конкурировать с авторегрессионными трансформерами и работали слишком медленно, требуя идеальной точности без права на ошибку.

⚖️ Доминирование и скрытые уязвимости авторегрессионных моделей 13:57

В силу указанных трудностей на текущий момент доминирует единственный тип дискретных вероятностных моделей — авторегрессионные трансформеры. Их математическая суть заключается в декомпозиции полной вероятности длинной строки на произведение условных вероятностей, где каждый следующий токен предсказывается на основе накопленного контекста.

Аарон подробно перечисляет ключевые достоинства авторегрессионной парадимы:

Масштабируемость: расчет вероятности следующего шага требует прохода только по пространству доступных токенов словаря, что вычислительно эффективно.
Выразительная способность: теоретически, при наличии нейросети бесконечной мощности, такая декомпозиция способна точно выразить абсолютно любое сложное распределение последовательностей.
Логичное индуктивное смещение для человеческой речи: поскольку люди пишут и говорят слева направо, modeling текста в том же направлении кажется естественным.

Тем не менее исследователь призывает не игнорировать фундаментальные изъяны авторегрессии. Он ссылается на знаменитый аргумент главы ИИ-направления Meta Ян ЛеКуна, который активно утверждает, что авторегрессионное сэмплирование неизбежно страдает от эффекта «дрейфа» (drift). Ошибки предсказания накапливаются лавинообразно с каждым новым сгенерированным словом, уводя контекст далеко в сторону от исходной траектории. По словам Аарона, ЛеКун использует этот феномен для обоснования своего скептического прогноза: человечество никогда не создаст сильный искусственный интеллект (AGI) на базе чисто авторегрессионных моделей. Дополнительно Аарон отмечает, что для нетекстовых задач (например, синтеза ДНК) левосторонняя генерация биологически неоправданна, а необходимость пошагового циклического вычисления токенов делает трансформеры крайне медленными при генерации длинных текстов.

🧮 Перенос метода Score Matching на дискретные рельсы 17:18

Желание избавиться от авторегрессионных ограничений заставило команду ученых искать способ обобщить успешный метод сопоставления оценок (score matching), используемый в непрерывной диффузии. В непрерывных пространствах score matching позволяет моделировать не саму вероятность (что потребовало бы невозможного вычисления сложнейших интегралов для нормирования распределения к единице), а градиент логарифма вероятности. Главный вызов, сформулированный спикером, состоял в поиске дискретного эквивалента понятию градиента.

Решением стало использование конечных разностей (finite difference) — классического математического аналога производной для прерывистых пространств, который вычисляется как разница значений функции в соседних точках решетки. На этой основе ученые вывели функцию дискретной оценки, названную ими «конкретной оценкой» (concrete score), которая оперирует отношениями вероятностей соседних последовательностей $p(y)/p(x)$.

Поскольку полный перебор всех возможных пар последовательностей ведет к катастрофической экспоненциальной сложности $\mathcal{O}(n^{2d})$, исследователи предложили изящное локальное ограничение: рассматривать отношения только между теми строками, которые отличаются строго в одной позиции. Такое сужение пространства снижает сложность алгоритма до линейной зависимости $\mathcal{O}(n \times D)$, делая вычисления абсолютно подъемными для современных систем. Моделирование этих отношений поручается неавторегрессионному трансформеру в стиле BERT, который обрабатывает последовательность параллельно. Для обучения сети авторы разработали новую функцию потерь — энтропию оценки (score entropy), концептуально объединяющую идеи score matching и кросс-энтропии и гарантирующую точное восстановление истинного распределения при достаточной емкости модели.

🌫️ Дискретная диффузия и марковские цепи 29:23

Так как на практике истинные вероятности распределения данных $p(x)$ и $p(y)$ остаются неизвестными, Аарон представляет рабочую модификацию алгоритма — функцию потерь сглаживания (denoising score entropy), выступающую прямым аналогом непрерывного denoising score matching. За счет математического допущения, что распределение данных подвергается контролируемому размытию через ядро перехода $p(x|x_0)$, ученым удалось переписать формулу так, чтобы она опиралась исключительно на трактуемые локальные переходы, исключив из расчетов неизвестную глобальную константу плотности данных.

Сам процесс зашумления и диффузии в дискретном пространстве авторы строго формализуют через марковские цепи с непрерывным временем (Continuous-time Markov Chains). Вероятности всех возможных состояний упаковываются в масштабный вектор, динамика изменения которого описывается линейным дифференциальным уравнением (ODE), управляемым матрицей интенсивностей переходов $Q_t$. К матрице $Q_t$ применяются строгие математические ограничения: сумма элементов в ее столбцах всегда должна быть равна нулю для сохранения суммарной вероятности, равной единице, а внедиагональные коэффициенты обязаны быть неотрицательными. Аарон наглядно демонстрирует на численном примере, как перемножение векторов и матриц интенсивностей задает скорость потери и приобретения массы вероятности различными дискретными состояниями.

В рамках разработанного фреймворка исследователи выделяют два базовых типа диффузионных матриц переходов:

Равномерная (uniform): в которой каждый токен с заданной интенсивностью имеет шанс случайно превратиться в абсолютно любой другой токен из доступного словаря. При длительном времени $t$ система полностью растворяется в случайном шуме.
Маскирующая (masking / absorbing): в которой токены могут переходить исключительно в принципиально новое, выделенное состояние «маски». По мере стремления времени к бесконечности вся исходная последовательность гарантированно поглощается масками.

Чтобы избежать вычислительного тупика при работе с длинными текстовыми строками, переходы между целыми последовательностями факторизуются до покомпонентных переходов на уровне отдельных токенов, уменьшая сложность до величины $\mathcal{O}(d^2)$.

🔄 Обратная диффузия и трюки для ускорения генерации 36:51

После того как модель научилась оценивать отношения плотностей зашумленных данных на любом временном отрезке с помощью вектора времени $t$, разработчики могут развернуть процесс вспять для генерации новых образцов из базового шума или масок. Математический разворот марковской цепи во времени описывается обратной матрицей интенсивностей $\bar{Q}$, структура которой напрямую включает в себя выученную нейросетью «конкретную оценку». Обученный неавторегрессионный трансформер $s_\theta$ рассчитывает направления и интенсивности переходов для всех позиций параллельно, позволяя осуществлять генерацию.

Однако прямое моделирование обратного процесса сталкивается со значительной технической преградой: согласно строгой марковской теории, за один бесконечно малый шаг времени цепь может изменить состояние только одного-единственного токена последовательности. Для генерации длинного текста такой пошаговый перебор оказывается экономически и вычислительно нецелесообразным.

Чтобы обойти это ограничение, команда Аарона применила математический трюк, заимствованный из литературы по химической инженерии, известный как «прыжки по тау» (tau leaping). Суть этого дискретизационного метода заключается в том, что алгоритму сэмплирования разрешается совершать множество независимых прыжков одновременно в рамках одного укрупненного временного шага — например, снимать маски или изменять значения сразу с десятков токенов параллельно. По заверению Аарона, метод tau leaping прекрасно работает на практике: если шаги дискретизации остаются в разумных пределах, а выученные отношения вероятностей не претерпевают резких скачков, модель успешно генерирует связный текст за минимальное число проходов.

📊 Результаты SEDD: вызов авторегрессионному доминированию GPT-2 42:17

Итоговая модель получила официальное название SEDD — Score Entropy Discrete Diffusion (Дискретная диффузия на основе энтропии оценки). С целью объективной проверки качества работы новой технологии авторы провели прямое сравнение SEDD с классической моделью GPT-2 аналогичного масштаба (содержащей от 100 до 400 миллионов параметров) на открытом текстовом корпусе OpenWebText. Эксперименты продемонстрировали удивительный результат: разработанные модели SEDD превзошли GPT-2 по показателям связности и качества генерируемого текста при стандартном тестировании. При этом Аарон подчеркивает, что маскирующий вариант (SEDD с поглощающим состоянием) показал существенно более высокие результаты, чем равномерный (SEDD-U). По его логичному объяснению, хаотичное случайное переключение слов в процессе uniform-диффузии порождает слишком деструктивный шум, тогда как последовательное раскрытие масок сохраняет глобальный контекст понятным для нейросети на всех этапах.

Графики зависимости качества от вычислительного бюджета выявили уникальное свойство SEDD — гибкую масштабируемость сэмплирования. Модель позволяет напрямую менять скорость генерации на качество за счет варьирования числа шагов tau leaping. Так, при экстремально быстром режиме всего в 64 шага вычислений SEDD полностью сравнивается по качеству с GPT-2, но оставляет ее далеко позади по скорости работы. Если же выкрутить точность на максимум и задать от 1024 до 2048 шагов, качество текста SEDD улучшается линейно в логарифмических координатах, демонстрируя сверхнизкие показатели перплексии, недостижимые для авторегрессионных моделей.

В дополнение к чистой скорости и качеству, архитектура SEDD открывает революционные возможности для контролируемого редактирования текстов. Поскольку модель не привязана к жесткому направлению слева направо, она способна выполнять инфиллинг (infilling) — связное заполнение пропусков произвольной длины вокруг фиксированных токенов подсказки в любой части документа, с чем традиционные авторегрессионные трансформеры не способны справиться без глубоких архитектурных изменений.

Аарон честно указывает на главное узкое место текущей реализации: для больших коммерческих словарей (например, размера токенизатора GPT-2 в 50 000 токенов) расчет матричной экспоненты интенсивностей занимает непозволительно много времени — до 10 секунд даже на специализированных CUDA-ускорителях, поскольку современные видеокарты аппаратно не оптимизированы под подобные математические операции. Команда пробовала внедрять альтернативные усложненные структуры матриц переходов, однако это требовало фундаментального изменения дизайна архитектуры. Тем не менее авторы исследования убеждены, что SEDD представляет собой первый весомый и математически обоснованный прецедент, способный пошатнуть монополию авторегрессионных моделей на рынке генерации дискретных последовательностей.