# Как трансформеры совершили революцию в видеогенерации: разбор архитектуры Movie Gen от Meta

Источник: https://www.youtube.com/watch?v=YGHF8_tf--g
Канал: Stanford Online
Опубликовано: 03.07.2025

---

На семинаре Stanford CS25 исследователь из команды GenAI в Meta Эндрю Браун представил подробный разбор Movie Gen — новой флагманской модели для генерации видео высокой четкости. Работа демонстрирует, что за счет простого масштабирования данных, вычислительных мощностей и параметров стандартных трансформеров можно добиться прорыва в понимании физики и движения виртуальными агентами. Этот доклад стал важной вехой, зафиксировавшей переход индустрии от специализированных архитектур к унифицированным ИИ-системам.

## 🎥 От размытых кухонь к кинематографическому качеству
[[JUMP:0:43]]

Развитие генеративных моделей для работы с визуальным контентом за последние годы шло беспрецедентно высокими темпами. Эндрю Браун вспоминает, как в 2019 году, будучи аспирантом Оксфордского университета, он посетил лекцию профессора Антонио Торральбы из MIT, посвященную проекту GAN Dissection. В то время передовые генеративно-состязательные сети (GAN) могли создавать лишь сильно размытые изображения лиц или интерьеров кухонь. Полноценное управление генерацией сводилось к тому, чтобы путем ручной активации отдельных нейронов заставить модель дорисовать искаженное окно на стене. Однако даже тогда Брауна поразило, что нейросеть смогла самостоятельно уловить базовые законы физики: при добавлении окна на COUNTERTOP (мраморную столешницу) ложилось реалистичное отражение света. 

По оценке спикера, индустрия видеогенерации за последние три года пережила два фундаментальных перелома. Первый случился в 2022 году с массовым внедрением диффузионных моделей, что резко повысило визуальное качество генерации. Второй перелом произошел в 2024 году и ознаменовал собой «унификацию архитектур». Разработчики по всему миру начали отказываться от специализированных сверточных сетей (CNN) и U-Net структур в пользу простых трансформеров. Модель Movie Gen, представленная Meta в октябре 2024 года, стала прямым следствием этой технологической революции. Это монолитный ИИ-инструмент на 30 миллиардов параметров, обученный на 100 миллионах видеороликов и 1 миллиарде изображений.

## 🏗️ Представление данных: Временной автоэнкодер (TAE)
[[JUMP:11:29]]

Главная сложность при обучении генеративных моделей на видеоконтенте заключается в фундаментальном различии между текстом и медиафайлами. Текстовые данные изначально дискретны и сильно сжаты людьми: каждое слово несет в себе огромный объем семантической информации. В то же время видео или статичное изображение — это непрерывный поток сырых данных, зафиксированных камерой, где информация обладает колоссальной избыточностью. Если нам известен цвет одного пикселя кошачьей шерсти, то с высокой долей вероятности соседние пиксели в пространстве и времени будут точно такими же. 


Попытки моделировать пиксели напрямую, как это делалось в ранних проектах вроде Imagen Video или ImageGPT, накладывают жесткие вычислительные ограничения. Количество пикселей растет квадратично по отношению к разрешению кадра, а добавление временной шкалы делает прямые расчеты невозможными. Из-за этого старые модели были ограничены разрешением $64 \times 64$ пикселя и требовали каскада апсемплеров для искусственного увеличения картинки.

Чтобы решить эту проблему, команда Meta применила подход с обучением скрытого представления (latent representation). Они разработали и обучили Временной автоэнкодер (Temporal Autoencoder, TAE), который выполняет пространственно-временное сжатие данных. На этапе обучения видео пропускается через энкодер TAE, сжимается в «узком горлышке» (bottleneck) архитектуры, а затем восстанавливается декодером обратно в пиксели. Сжатое представление в латентном пространстве — это именно то, с чем в дальнейшем работает основная модель. 

Архитектура TAE от Meta обеспечивает 8-кратное сжатие видео по всем трем осям: высоте, ширине и времени. 

Эндрю Браун приводит наглядный математический пример эффективности такого сжатия:

* **Исходный файл:** 16-секундный HD-ролик с разрешением $768 \times 768$ пикселей и частотой 16 кадров в секунду.
* **Прямое попиксельное кодирование:** Потребовало бы обработки 150 миллионов токенов, что абсолютно нереализуемо на современном оборудовании.
* **Кодирование через TAE:** Сжимает тот же самый видеофайл всего до 73 000 токенов, делая его пригодным для обработки на стандартной ИИ-инфраструктуре.

Отвечая на вопрос из зала, Браун уточнил, что используемый автоэнкодер не является каузальным (причинно-следственным). Это означает, что кадры не кодируются строго изолированно друг от друга в хронологическом порядке, а сжимаются единым пространственно-временным блоком.

## 🌊 Целевая функция: Почему Flow Matching лучше диффузии
[[JUMP:19:32]]

В то время как текстовые LLM обучаются по принципу предсказания следующего токена (autoregression), сфера генерации медиаконтента уже несколько лет использует иные подходы. В Movie Gen разработчики отказались от традиционной диффузии в пользу концепции Flow Matching (согласование потоков). Flow Matching представляет собой более простое и математически изящное обобщение диффузионных моделей. По утверждению Брауна, этот метод обеспечивает более стабильное обучение и формирует более прямые траектории вероятностных путей, что существенно ускоряет процесс генерации контента.

[Image explaining flow matching vs diffusion probability paths]

Процесс обучения модели методом Flow Matching можно разделить на три последовательных шага:

1.  Из обучающего набора берется чистый исходный кадр или видео (обозначается как $X_1$).
2.  Выбирается случайный временной шаг в виде плавающего числа от 0 до 1, а также генерируется случайный шум из стандартного распределения Гаусса.
3.  Путем линейной интерполяции создается промежуточный зашумленный образец $X_t$.

В этой парадигме нейросеть обучается предсказывать так называемую скорость (velocity) — вектор, который указывает направление движения от зашумленного состояния обратно к исходным чистым данным. Функция потерь рассчитывается как среднеквадратичная ошибка (MSE) между предсказанием модели и истинным вектором скорости. Модель принимает на вход зашумленный шаг, значение текущего времени, а также текстовый промпт, выступающий в роли главного условия для генерации. 

Во время инференса (непосредственного создания видео) процесс запускается в обратную сторону. Модель берет чистый гауссов шум и с помощью простого ОДУ-решателя (Ordinary Differential Equation solver) шаг за шагом двигается к итоговому изображению. По словам спикера, на практике для получения качественного видео Movie Gen требуется сделать порядка 250 шагов денойзинга. Поскольку траектории Flow Matching математически более прямые, для достижения сопоставимого с диффузией качества требуется заметно меньше вычислений.

## 🛠️ Адаптация Llama 3 для генерации медиаконтента
[[JUMP:24:52]]

Основой для Movie Gen стала стандартная архитектура Llama 3 — классическая полносвязная модель типа decoder-only, изначально созданная для обработки текста. Разработчики Meta взяли пустую, рандомно инициализированную структуру Llama, превратили видео с помощью TAE в последовательность токенов, вытянули их в один длинный вектор и отправили внутрь трансформера. Браун подчеркивает, что масштабирование и стабилизация обучения таких гигантских сетей — невероятно сложная инженерная задача. Любое изменение архитектуры требует подбора новых гиперпараметров. Использование уже проверенной структуры Llama позволило задействовать готовую внутреннюю ИИ-инфраструктуру компании без необходимости изобретать ее с нуля.


Тем не менее, поскольку Llama изначально ориентирована на авторегрессионный текст, инженерам пришлось внести три минимальных, но критически важных изменения в блоки трансформера:

* **Внедрение блоков перекрестного внимания (Cross-Attention):** Они необходимы для интеграции текстового условия (промпта) в процесс видеогенерации. Текстовое описание кодируется тремя независимыми замороженными языковыми моделями: UL2 (для высокоуровневой семантики), MetaCLIP (для привязки к визуальному пространству) и T5 (для точного посимвольного разбора текста). Полученные векторы проецируются на размерность модели и конкатенируются в единую последовательность.
* **Использование блоков адаптивной нормализации слоев (Adaptive Layer Norm):** Этот механизм, заимствованный из архитектуры Diffusion Transformer (DiT), служит для эффективного подмешивания информации о временном шаге денойзинга. Он требует минимум вычислительных ресурсов, но демонстрирует высокую стабильность.
* **Переход на полное двунаправленное внимание (Bidirectional Attention):** В текстовых моделях используется причинно-следственная маска (causal mask), чтобы текущий токен не мог «заглядывать в будущее». В задачах Flow Matching таких ограничений нет: каждый видеотокен должен видеть все остальные видеотокены в файле. Поэтому маскирование было полностью удалено, а вместо Grouped Query Attention инженеры вернулись к классическому механизму Multi-Head Attention.

## 📊 Данные и рецепт обучения: Секрет успеха больших моделей
[[JUMP:35:13]]

По мнению Эндрю Брауна, данные — это самый важный и при этом наименее обсуждаемый аспект создания современных генеративных систем. Масштабируемость моделей напрямую зависит от идеальной чистоты обучающей выборки: если в нее попадет мусор, математические законы масштабирования перестанут работать. В коммерческих ИИ-лабораториях команды, занимающиеся фильтрацией и разметкой данных, зачастую многократно превосходят по численности команды разработчиков самой архитектуры. Для Movie Gen был создан сложнейший многоступенчатый пайплайн обработки контента.

На первом этапе видеоролики проходили жесткую визуальную фильтрацию: ИИ-системы отсекали файлы с низким разрешением, плохой эстетикой, склейками планов и неестественным движением. Оказалось, что огромная часть роликов в интернете имеет дерганую или слишком медленную динамику, которая портит обучение. Затем следовал критически важный этап изменения баланса выборки (resampling). Трансформеры плохо работают на данных с «длинным хвостом» редких концептов, им распределение нужно делать близким к унифицированному. Meta провела кластеризацию сотен миллионов видео, искусственно снизив долю слишком популярных сюжетов и подняв вес уникальных. Текстовые описания к роликам генерировались автоматически с помощью специально обученной версии Llama 3, способной анализировать видео.

Сам процесс обучения Movie Gen состоял из нескольких последовательных фаз, оптимизированных под максимальную скорость сходимости:

1.  **Стадия Text-to-Image:** Базовое обучение генерации статичных изображений в низком разрешении $256 \times 256$ пикселей.
2.  **Стадия совместного претрейна:** Полноценное совместное обучение генерации картинок и видео с постепенным увеличением разрешения от 256p до 768p. На пике разрешения длина обрабатываемой последовательности составляла те самые 73 000 токенов, а вычисления распределялись на кластере из 6 000 графических процессоров (GPU).
3.  **Пост-обучение (Post-training):** Тонкая настройка (SFT) на крошечной, но верифицированной вручную выборке видео высочайшего эстетического качества.

Финальные тесты преподнесли исследователям удивительный сюрприз в области законов масштабирования. Когда инженеры наложили график эффективности обучения видеомодели Movie Gen на классический график законов масштабирования текстовой Llama 3, кривые практически совпали. 

> «Это поразительно, но текстовая модель оказалась точным предиктором того, сколько вычислительной мощности и параметров потребуется для генерации видео, — констатирует Браун. — Похоже, законы масштабирования трансформеров вообще не зависят от модальности данных».

## 🔮 Текущие ограничения и следующий шаг в эволюции видеогенерации
[[JUMP:49:16]]

Несмотря на выдающиеся результаты Movie Gen в тестах и превосходство над конкурентами вроде Sora, Runway или Kling на момент релиза в 2024 году, технология видеогенерации все еще далека от завершения. Эндрю Браун продемонстрировал забавную неудачную генерацию по сложному промпту, где описывалось драматичное столкновение двух автомобилей на перекрестке. На видео машины начинают двигаться реалистично, но в момент удара они буквально схлопываются сами в себя, а один серебристый седан внезапно почкуется на два независимых транспортных средства. Модели все еще тяжело даются сложные последовательные цепочки физических взаимодействий.

Спикер выделил три главных вектора развития индустрии, которые мы увидим в ближайшее время:

1.  **Дальнейшее лобовое масштабирование:** Movie Gen остановился на отметке в 30 млрд параметров, тогда как сугубо текстовые версии Llama 3 масштабировали до 405 млрд. Рост объема моделей и очистка данных на порядок способны кратно поднять качество видео.
2.  **Внедрение механизмов рассуждения (Reasoning):** По аналогии с текстовыми моделями уровня o1 или R1, видеогенераторы должны получить возможность «подумать» перед выдачей ответа. ИИ должен построить скрытую цепочку мыслей (Chain of Thought), просчитать физику сцены и скорректировать ошибки до того, как начнется финальная отрисовка кадров. Главный вызов здесь — разработка верификационных моделей для обучения с подкреплением (RL), которые смогут математически оценивать корректность физики в сгенерированном видео.
3.  **Нативная мультимодальность:** Переход к истинно единым системам, которые одновременно и нативно обучаются воспринимать и генерировать текст, код, изображения, звук и видео в рамках одной семантической сети, а не собираются из отдельных лоскутных моделей.

Команда Meta уже сделала шаг к мультимодальности, разработав отдельную синхронизированную модель Movie Gen Audio, способную генерировать многодорожечный реалистичный звук под готовый видеоряд. Обучать единую аудио-видео модель мешает острая нехватка качественных данных: в интернете очень трудно найти ролики, где высококлассная картинка сопровождалась бы чистым, правильно записанным интершумом и звуком без посторонних шумов или наложенной музыки. Тем не менее, исследователь уверен, что будущее лежит именно за конвергенцией всех существующих медийных модальностей.