Физика в пикселях: как открытая модель Stable Video Diffusion меняет генерацию видео

Генеративные нейросети совершают очередной эволюционный скачок, переходя от создания статичных изображений к полноценной видеогенерации. В новом выпуске подкаста венчурного фонда a16z исследователи из Stability AI Андреас Блаттманн и Робин Ромбах обсуждают архитектурные вызовы, стоящие перед создателями модели Stable Video Diffusion, и то, как ограничения вычислительных мощностей стимулируют технологические прорывы. Работа исследователей не просто расширяет инструментарий для контент-мейкеров, но и закладывает основу для глубокого понимания физики реального мира искусственным интеллектом.

🛠️ От картинок к симуляции реальности: что такое Stable Video Diffusion 2:40

Технологии генерации медиафайлов развиваются стремительно. Большинство пользователей уже знакомы с текстовыми моделями вроде ChatGPT или генераторами изображений уровня Midjourney. Однако создание видео по текстовому описанию — принципиально более сложная задача. Текстовые файлы весят килобайты, качественные изображения — мегабайты, в то время как несжатые видеомассивы исчисляются гигабайтами. Кроме того, видео требует динамического отображения мира, учитывающего законы физики, трехмерный объем объектов и правильную анатомию движений.

Команда исследователей из Stability AI, в которую входят Робин Ромбах, Андреас Блаттманн, Патрик Эссек и Доминик Лоренц, создала архитектуру латентной диффузии еще во время учебы в университете. Сегодня их группа в Stability AI сфокусирована исключительно на визуальных медиа. По словам Ромбаха, миссия компании заключается в создании фундаментальных мультимодальных моделей и обеспечении их максимальной доступности для сообщества через публикацию открытых весов. Выпущенная модель Stable Video Diffusion стала их первым масштабным шагом в видеодомен. На текущем этапе она способна принимать статичное изображение и превращать его в короткий кинематографичный видеоклип.

С технической точки зрения диффузионные модели принципиально отличаются от авторегрессионных (используемых в текстовых LLM). Различия заключаются в следующих аспектах:

Представление данных: Авторегрессионные модели работают с последовательностями дискретных токенов. Диффузионные модели оперируют пиксельными сетками, что делает их более приспособленными для обработки изображений и видео.
Восприятие деталей: В диффузионные модели изначально заложены функции потерь, которые отдают приоритет перцептивно важным деталям — тем аспектам визуального ряда, которые человеческий глаз считает ключевыми.
Характер генерации: Вместо последовательного пошагового формирования токенов (слово за словом), диффузионный алгоритм осуществляет итеративное постепенное преобразование случайного белого шума в структурированные данные.

⚡ Прорыв в один шаг и эволюция визуальных моделей 7:08

Важным преимуществом диффузионного подхода является гибкость при сэмплировании. Во время обучения модель прогоняется через множество уровней зашумления (обычно около 1000 шагов). Однако в момент генерации (sampling time) специализированные алгоритмы позволяют сократить это число до 50 или даже меньше. Более того, за неделю до записи подкаста команда Stability AI опубликовала работу по дистилляции моделей, доказав возможность качественной генерации всего за один единственный шаг.

По мнению Робина Ромбаха, ценность одношаговой генерации для создателей контента колоссальна, поскольку она обеспечивает мгновенный интерактивный отклик. Пользователь видит изменения на экране прямо в процессе ввода текстового запроса. Полтора года назад генерации картинки приходилось ждать до минуты, а современные быстрые семплеры выдают мгновенный результат, превосходящий по качеству первые версии Stable Diffusion.

Оценивая прогресс за последние полтора года, Андреас Блаттманн отмечает колоссальный скачок в качестве понимания текста моделями и их пространственной композиционности. Современные нейросети способны детально визуализировать сложные сцены по минимальному описанию. В качестве вех этого развития Блаттманн выделяет:

Релиз модели SDXL в июне 2023 года, совершивший прорыв в точности следования промпту;
Выход DALL-E 3 от OpenAI, продемонстрировавший еще более глубокое понимание контекста;
Появление множества альтернативных семплеров, приблизивших индустрию к мгновенному рендерингу.

Вспоминая университетские годы, Ромбах делится историей создания Latent Diffusion. Сразу после публикации статьи на arXiv их команда получила вычислительный узел с восемью картами Nvidia A100 (по 80 ГБ каждая). Это был их первый опыт работы с крупномасштабной загрузкой данных, когда модель обучалась на разрешении 256x256 пикселей. Объединив архитектуру с техникой Classifier-Free Guidance (CFG), улучшающей качество генерации без дополнительных затрат, исследователи получили превосходный результат. Однако, как с иронией вспоминает Ромбах, через два дня OpenAI представила DALL-E 2, и весь медийный хайп вокруг их университетской работы мгновенно улетучился.

🌍 Физика пикселей: почему видеогенерация кратно сложнее 11:05

Решение сфокусироваться на видеогенерации было продиктовано желанием принять сложный вызов. Чтобы успешно сгенерировать видеоряд, нейросеть обязана освоить базовые физические свойства реального мира. Без имплицитного понимания трехмерного пространства невозможно построить правильный панорамный облет камеры вокруг объекта или заставить его реалистично двигаться. Если человек в кадре разворачивается спиной, модель должна корректно «галлюцинировать» (дорисовать) то, как этот человек выглядит сзади.

Академический бэкграунд создателей Stable Diffusion тесно связан с точными науками: Ромбах по образованию физик, а Блаттманн — инженер-механик. Собеседники соглашаются, что их подход к генеративному моделированию во многом опирается на интуитивное понимание законов физического мира.

По прогнозам Андреаса Блаттманна, текущие видеомодели — это лишь вершина айсберга. Обучение ИИ на нативных видеопикселях (по аналогии с тем, как текстовые LLM обучаются на массивах книг) способно привести к неожиданным эмерджентным свойствам. Такая модель приобретает прогностический характер: она способна взять один кадр или короткую секвенцию и предсказать, что произойдет в следующую секунду. Блаттманн считает, что интеграция видеомоделей с текстовой модальностью позволит окончательно «заземлить» (grounding) искусственный интеллект в физической реальности.

🏗️ Инфраструктурный кошмар: баги, датасеты и нехватка CPU 15:05

Основная сложность создания Stable Video Diffusion упиралась в масштабирование датасета и инженерию данных. При параллельном обучении на огромном количестве GPU возникают специфические проблемы, нехарактерные для работы с картинками. Главным узким местом становится производительность CPU при декодировании видео. Даталоадер должен на лету считывать байты, распаковывать видеокодек и трансформировать поток в тензоры, пригодные для обработки нейросетью. Современные графические ускорители (GPU) работают настолько быстро, что центральные процессоры (CPU) банально не успевали подвозить им готовые данные.

В процессе настройки пайплайна исследователи сталкивались с неочевидными программными ошибками. Блаттманн рассказал о курьезном баге: из-за одной неверной строчки кода алгоритм добавлял разные уровни шума к разным кадрам внутри одного и того же видео фрагмента. Это критически усложняло задачу обучения, заставляя модель выполнять лишнюю и некорректную работу.

Специфика видеодиффузии накладывает жесткие требования к инфраструктуре:

Колоссальное потребление памяти: Добавление временной оси (оси кадров) драматически увеличивает требования к VRAM графических карт.
Размер батча (Batch Size): Для точной аппроксимации градиентов, которые ведут за собой обучение диффузионных моделей, критически важно использовать максимально большие размеры батчей.
Каскадные сбои железа: Видеоданные занимают так много места, что сбой на одной видеокарте внутри огромного распределенного кластера неминуемо обрушает весь процесс тренировки. Чем больше серверов задействовано в пуле, тем выше математическая вероятность чисто аппаратного отказа оборудования.

📋 Три стадии обучения и магия адаптеров LoRA 19:28

В опубликованной научной статье команда Stability AI подробно описала структуру обучения видеомодели, состоящую из трех последовательных этапов:

Использование готовой базовой модели изображений: Нет смысла учить сеть пространственным связям с нуля. Рациональнее взять сильную модель картинок (например, Stable Diffusion) и переиспользовать ее базовые знания о геометрии объектов.
Масштабное предварительное обучение на видео: Модель тренируют на гигантском массиве видеороликов, чтобы внедрить понимание временной размерности и векторов движения. На этом этапе критически важна жесткая фильтрация данных: исследователи вычищали из датасета водяные знаки, текст на экране (OCR) и статичные сцены, оставляя только качественные движения объектов и плавную работу операторской камеры.
Тонкая настройка (Refinement): Финальное дообучение на относительно небольшом, но ультра-качественном, вручную отпретированном наборе данных, что кардинально повышает эстетику и реализм финальной картинки.

Одной из главных проблем видеогенерации долгое время оставалась структурная консистентность — сохранение неизменного внешнего вида 3D-объекта при движении или облете камеры. Stability AI удалось доказать, что базовая видеомодель за счет насмотренности неявно (implicitly) аккумулирует в себе глубокие трехмерные знания. Чтобы продемонстрировать это, исследователи взяли обученную Stable Video Diffusion и слегка дообучили ее на специализированных кадрах круговых видовых орбит вокруг различных предметов. Результат превзошел ожидания: модель мгновенно адаптировалась под качественный 3D-синтез многоракурсных изображений (multi-view synthesis), сделав это намного быстрее и точнее, чем если бы тренировка шла на базе обычной генерации картинок.

Для обеспечения точного контроля движений в кадре исследователи применили технологию LoRA (Low-Rank Adaptation). Это ультра-легковесные адаптеры, которые интегрируются в слои внимания (attention layers) готовой базовой модели. Обучая LoRA на крошечных специфических датасетах (например, содержащих только наезды камеры или только панорамирование влево/вправо), можно наделить базовую модель возможностью строго исполнять конкретные операторские команды. Данный подход пользуется огромной популярностью в open-source сообществе благодаря своей вычислительной экономичности.

🎬 Инструменты будущего и оживление мемов 26:02

Говоря о будущем видеомонтажа, исследователи признают, что хранение и администрирование сотен отдельных LoRA-файлов для каждого минорного движения — путь тупиковый и не поддающийся масштабированию. По мнению Андреаса Блаттманна, конечная цель индустрии — добиться того, чтобы пользователь мог загрузить стартовое изображение и в свободной текстовой форме детально описать желаемое действие, а модель безукоризненно выполнила промпт. Существуют и другие перспективные векторы интерфейсов управления, такие как инструмент Motion Brush от Runway, позволяющий буквально кистью указывать направление движения конкретных пикселей.

Эволюция этих технологий позволит создавать персонализированные интерактивные медиа и даже генерировать индивидуальные короткометражные фильмы на лету. Ромбах проводит аналогию с видеоиграми: в будущем пользователь сможет вводить текстовые команды и мгновенно видеть изменения кинематографичного видеоряда на своем экране в режиме реального времени.

Открытый статус Stable Video Diffusion позволил энтузиастам ставить эксперименты с первого дня релиза. Одним из самых популярных юзкейсов у пользователей стало оживление культовых интернет-мемов. Спикеры с улыбкой вспоминают генерации на основе знаменитого мема про неверного парня, оглядывающегося на другую девушку (Distracted Boyfriend). Нейросеть смогла реалистично достроить и продолжить сцену в динамике. Еще одним впечатляющим примером стало оживление классической живописи: пользователи анимируют «Звездную ночь» Ван Гога, заставляя небо мерцать, или заставляют Мону Лизу переводить взгляд и смотреть по сторонам.

🚀 Ограничения как двигатель инноваций и открытый исходный код 31:19

В качестве ближайших приоритетов и главных вызовов для Stability AI исследователи выделяют три ключевых пункта:

Длительность и связность: Модели должны научиться генерировать и стабильно удерживать контекст на длинных дистанциях видео, сохраняя логику сюжета.
Скорость работы: Максимальное ускорение рендеринга для обеспечения бесшовного пользовательского опыта.
Мультимодальность: Прямая интеграция генерации звукового сопровождения и аудиоэффектов, синхронизированных с видеорядом.

Рассуждая об инфраструктурных ограничениях, Робин Ромбах высказывает парадоксальную, на первый взгляд, мысль: лимиты по железу — это не баг, а фича ИИ-индустрии. Безусловно, инженерам всегда хочется иметь больше CPU и терабайты памяти, но именно жесткие тиски дефицита мощностей заставляют разработчиков искать изящные алгоритмические решения.

Архитектура Latent Diffusion родилась в Мюнхенском университете именно потому, что у студентов не было доступа к промышленным суперкомпьютерам, и им приходилось выжимать максимум из одиночных видеокарт. Ромбах резюмирует, что именно в условиях дефицита зарождается подлинный технологический интеллект. В качестве подтверждения этого тезиса он приводит тот факт, что даже передовая закрытая модель DALL-E 3 от OpenAI использует автоэнкодер, который изначально был обучен на одной-единственной видеокарте. «Нет ограничений — нет творчества», — соглашается ведущий подкаста.

Венчурный фонд a16z в рамках своей инвестиционной философии последовательно поддерживает концепцию открытых ИИ-технологий. Стратегический тезис заключается в том, что открытый исходный код создает феномен «прилива, поднимающего все лодки в гавани». Публикация весов активизирует глобальное R&D-сообщество, чьи наработки затем обогащают всю индустрию. Ярким примером этого служит официальный документ к модели DALL-E 3 от OpenAI, где в списке цитирований и благодарностей прямо указаны фундаментальные научные работы скромной немецкой исследовательской группы Ромбаха и Блаттманна.