Как Lumiere от Google генерирует видео целиком: разбор архитектуры ST-UNet

В новом видео на своём канале Янник Кильхер (Yannic Kilcher) разбирает последнюю разработку Google Research в области генеративного ИИ — модель Lumiere. Это нейросеть нового поколения для создания видео по текстовому описанию, которая, по утверждению авторов и мнению ведущего, знаменует собой переход от простых коротких анимаций к полноценной генерации последовательного и реалистичного движения.

🌌 Прорыв в генерации видео: от кадров к пространственно-временному контенту 0:00

Текстовые модели генерации изображений достигли невероятного качества, и теперь «последним рубежом» становится видео . Lumiere позволяет вводить текст и получать на выходе ролик, где каждый пиксель «галлюцинирует» на основе промпта. Янник Кильхер отмечает, что модель справляется как с минимальным движением, так и с драматическими изменениями ракурса, например, при использовании эффекта «рыбий глаз» для собаки или при панорамировании камеры вокруг автомобиля .

Одной из забавных деталей, замеченных автором разбора, стала склонность модели к «галлюцинациям» на основе корреляций: в ответ на запрос о красном Lamborghini на горной дороге нейросеть добавила гоночные полосы, которые не упоминались в тексте . Сравнение Lumiere с моделями двухлетней давности показывает драматический прогресс, особенно в физике жидкостей, например, при изображении тающего мороженого .

Помимо генерации из текста, Lumiere поддерживает:

Image-to-Video: создание анимации на основе первого кадра и текстового промпта .
Stylized Generation: стилизация видео без дообучения всей модели.
Video Inpainting: заполнение пропущенных или замаскированных областей видео .
Cinemagraphs: анимация только конкретных областей изображения.

🏗 Архитектура ST-UNet: решение проблемы «дерганого» движения 6:29

Главное техническое новшество Lumiere заключается в архитектуре Space-Time U-Net (ST-UNet). В отличие от предыдущих подходов, которые сначала создавали ключевые кадры (keyframes), а затем заполняли промежутки между ними (Temporal Super Resolution — TSR), Lumiere генерирует всю временную протяженность видео целиком за один проход .

Янник Кильхер объясняет проблему старого метода «ключевых кадров» на примере идущего человека . Если модель генерирует кадр с поднятой левой ногой, а затем кадр, где нога уже на земле, промежуточная модель TSR должна «угадать» траекторию. Из-за ограничений памяти модель TSR не видит всё видео целиком и может принять решение, которое локально выглядит верно, но глобально противоречит ритму движения. В результате возникают артефакты — «дёрганье» или неестественные рывки .

Lumiere решает это следующим образом:

Инфляция (Inflation): Разработчики берут предобученную модель Text-to-Image (T2I) и «раздувают» её до видеомодели .
Пространственно-временное сжатие: Архитектура сжимает сигнал не только по высоте и ширине, но и по времени .
Глобальная обработка: Большинство вычислений происходит в компактном представлении, что позволяет генерировать 80 кадров при 16 FPS (около 5 секунд видео) .

🛠 Технические подробности: слои, конволюции и «хитрость» с цитированием 21:27

Модель строится на базе классической архитектуры U-Net, используемой в диффузионных моделях. Однако вместо обычного 3D-тензора (высота, ширина, каналы) здесь используется 4D-тензор, включающий временную ось .

Основные компоненты архитектуры:

Фиксированные веса: Основные веса предобученной модели T2I (например, Imagen) остаются замороженными .
Факторизованные конволюции (Factorized Convolutions): Вместо тяжелых 3D-сверток используются 2D-свертки для пространства и отдельные 1D-свертки для времени .
Temporal Attention: В самом глубоком «бутылочном горлышке» модели (латентном пространстве) применяются слои внимания (attention), работающие вдоль временной оси для обеспечения глобальной согласованности .

Янник Кильхер критически разбирает второй этап — пространственное супер-разрешение (Spatial Super Resolution, SSR). Чтобы избежать артефактов на границах временных сегментов, Google использует метод «мульти-диффузии» . По словам Кильхера, авторы представили это как сложную задачу оптимизации, хотя математически решение сводится к простому вычислению среднего значения (mean) . Ведущий в шутку предполагает, что такая сложная формулировка понадобилась только для того, чтобы добавить ссылку на предыдущую работу одного из авторов (Омера Бар-Таля) .

🎨 Стилизация и перенос стилей без Fine-tuning 44:05

Одной из самых впечатляющих функций Lumiere является возможность менять стиль видео, просто подменяя веса базовой модели T2I. Поскольку временные слои были обучены поверх фиксированных пространственных слоев, можно вставить в систему веса, обученные, например, на акварельной живописи или карандашных набросках .

Кильхер отмечает поразительный эффект: модель не просто меняет текстуру, но и адаптирует характер движения под стиль. Например, в стиле карандашного рисунка видео выглядит так, будто оно создается штрих за штрихом .

Автор разбора предлагает свою гипотезу этого феномена: вероятно, в обучающем наборе данных (30 миллионов видео) уже присутствовали ролики процесса рисования. Слои видеомодели «узнают» латентный сигнал от специфического стиля и активируют соответствующие паттерны движения, которые они видели при обучении на подобных данных .

📉 Критика: «Смерть науки» и закрытость данных 49:20

Несмотря на технологическое восхищение, Янник Кильхер крайне недоволен тем, как Google оформил научную публикацию. Он утверждает, что «наука в крупных тех-компаниях умерла» и превратилась в маркетинговые материалы .

Его основные претензии:

Отсутствие воспроизводимости: В статье не указаны размеры модели, количество слоев (вместо этого используется абстрактная переменная $L$), время обучения и конкретная архитектура базовой T2I модели .
Закрытость данных: Упоминается лишь, что модель обучалась на 30 миллионах видео, но нет никакой информации об их происхождении или содержании .
Сомнительные метрики: Автоматические скоры (например, Frechet Video Distance) при текущем уровне качества мало что значат .
Странные тесты на людях: При сравнении с конкурентами Google не уточняет, с какими именно моделями проводилось сопоставление. Кильхер подозревает, что в список «базовых моделей» могли добавить слабые решения, чтобы Lumiere выглядела выгоднее на их фоне .

В завершение Кильхер отмечает, что раздел о «социальном воздействии» (Societal Impacts) в статье максимально формален и короток: «технологии — это хорошо, технологии — это плохо, технологии бывают предвзятыми» .