# Как Lumiere от Google генерирует видео целиком: разбор архитектуры ST-UNet

Источник: https://www.youtube.com/watch?v=Pl8BET_K1mc
Канал: Yannic Kilcher
Опубликовано: 04.02.2024

---

В новом видео на своём канале **Янник Кильхер (Yannic Kilcher)** разбирает последнюю разработку Google Research в области генеративного ИИ — модель Lumiere. Это нейросеть нового поколения для создания видео по текстовому описанию, которая, по утверждению авторов и мнению ведущего, знаменует собой переход от простых коротких анимаций к полноценной генерации последовательного и реалистичного движения.

## 🌌 Прорыв в генерации видео: от кадров к пространственно-временному контенту
[[JUMP:00:00]]

Текстовые модели генерации изображений достигли невероятного качества, и теперь «последним рубежом» становится видео [00:14]. Lumiere позволяет вводить текст и получать на выходе ролик, где каждый пиксель «галлюцинирует» на основе промпта. Янник Кильхер отмечает, что модель справляется как с минимальным движением, так и с драматическими изменениями ракурса, например, при использовании эффекта «рыбий глаз» для собаки или при панорамировании камеры вокруг автомобиля [00:55]. 

Одной из забавных деталей, замеченных автором разбора, стала склонность модели к «галлюцинациям» на основе корреляций: в ответ на запрос о красном Lamborghini на горной дороге нейросеть добавила гоночные полосы, которые не упоминались в тексте [01:08]. Сравнение Lumiere с моделями двухлетней давности показывает драматический прогресс, особенно в физике жидкостей, например, при изображении тающего мороженого [01:35].

Помимо генерации из текста, Lumiere поддерживает:

*   **Image-to-Video:** создание анимации на основе первого кадра и текстового промпта [02:01].
*   **Stylized Generation:** стилизация видео без дообучения всей модели.
*   **Video Inpainting:** заполнение пропущенных или замаскированных областей видео [04:42].
*   **Cinemagraphs:** анимация только конкретных областей изображения.

## 🏗 Архитектура ST-UNet: решение проблемы «дерганого» движения
[[JUMP:06:29]]

Главное техническое новшество Lumiere заключается в архитектуре Space-Time U-Net (ST-UNet). В отличие от предыдущих подходов, которые сначала создавали ключевые кадры (keyframes), а затем заполняли промежутки между ними (Temporal Super Resolution — TSR), Lumiere генерирует всю временную протяженность видео целиком за один проход [06:43].

Янник Кильхер объясняет проблему старого метода «ключевых кадров» на примере идущего человека [11:47]. Если модель генерирует кадр с поднятой левой ногой, а затем кадр, где нога уже на земле, промежуточная модель TSR должна «угадать» траекторию. Из-за ограничений памяти модель TSR не видит всё видео целиком и может принять решение, которое локально выглядит верно, но глобально противоречит ритму движения. В результате возникают артефакты — «дёрганье» или неестественные рывки [12:53].

Lumiere решает это следующим образом:

1.  **Инфляция (Inflation):** Разработчики берут предобученную модель Text-to-Image (T2I) и «раздувают» её до видеомодели [08:05].
2.  **Пространственно-временное сжатие:** Архитектура сжимает сигнал не только по высоте и ширине, но и по времени [17:04].
3.  **Глобальная обработка:** Большинство вычислений происходит в компактном представлении, что позволяет генерировать 80 кадров при 16 FPS (около 5 секунд видео) [17:17].

## 🛠 Технические подробности: слои, конволюции и «хитрость» с цитированием
[[JUMP:21:27]]

Модель строится на базе классической архитектуры U-Net, используемой в диффузионных моделях. Однако вместо обычного 3D-тензора (высота, ширина, каналы) здесь используется 4D-тензор, включающий временную ось [25:17].

Основные компоненты архитектуры:

*   **Фиксированные веса:** Основные веса предобученной модели T2I (например, Imagen) остаются замороженными [07:52].
*   **Факторизованные конволюции (Factorized Convolutions):** Вместо тяжелых 3D-сверток используются 2D-свертки для пространства и отдельные 1D-свертки для времени [28:30].
*   **Temporal Attention:** В самом глубоком «бутылочном горлышке» модели (латентном пространстве) применяются слои внимания (attention), работающие вдоль временной оси для обеспечения глобальной согласованности [29:37].

Янник Кильхер критически разбирает второй этап — пространственное супер-разрешение (Spatial Super Resolution, SSR). Чтобы избежать артефактов на границах временных сегментов, Google использует метод «мульти-диффузии» [39:08]. По словам Кильхера, авторы представили это как сложную задачу оптимизации, хотя математически решение сводится к простому вычислению среднего значения (mean) [42:30]. Ведущий в шутку предполагает, что такая сложная формулировка понадобилась только для того, чтобы добавить ссылку на предыдущую работу одного из авторов (Омера Бар-Таля) [43:24].

## 🎨 Стилизация и перенос стилей без Fine-tuning
[[JUMP:44:05]]

Одной из самых впечатляющих функций Lumiere является возможность менять стиль видео, просто подменяя веса базовой модели T2I. Поскольку временные слои были обучены поверх фиксированных пространственных слоев, можно вставить в систему веса, обученные, например, на акварельной живописи или карандашных набросках [44:18].

Кильхер отмечает поразительный эффект: модель не просто меняет текстуру, но и адаптирует характер движения под стиль. Например, в стиле карандашного рисунка видео выглядит так, будто оно создается штрих за штрихом [46:42]. 

Автор разбора предлагает свою гипотезу этого феномена: вероятно, в обучающем наборе данных (30 миллионов видео) уже присутствовали ролики процесса рисования. Слои видеомодели «узнают» латентный сигнал от специфического стиля и активируют соответствующие паттерны движения, которые они видели при обучении на подобных данных [47:51].

## 📉 Критика: «Смерть науки» и закрытость данных
[[JUMP:49:20]]

Несмотря на технологическое восхищение, Янник Кильхер крайне недоволен тем, как Google оформил научную публикацию. Он утверждает, что «наука в крупных тех-компаниях умерла» и превратилась в маркетинговые материалы [06:03].

Его основные претензии:

*   **Отсутствие воспроизводимости:** В статье не указаны размеры модели, количество слоев (вместо этого используется абстрактная переменная $L$), время обучения и конкретная архитектура базовой T2I модели [49:34].
*   **Закрытость данных:** Упоминается лишь, что модель обучалась на 30 миллионах видео, но нет никакой информации об их происхождении или содержании [49:34].
*   **Сомнительные метрики:** Автоматические скоры (например, Frechet Video Distance) при текущем уровне качества мало что значат [51:14].
*   **Странные тесты на людях:** При сравнении с конкурентами Google не уточняет, с какими именно моделями проводилось сопоставление. Кильхер подозревает, что в список «базовых моделей» могли добавить слабые решения, чтобы Lumiere выглядела выгоднее на их фоне [52:48].

В завершение Кильхер отмечает, что раздел о «социальном воздействии» (Societal Impacts) в статье максимально формален и короток: «технологии — это хорошо, технологии — это плохо, технологии бывают предвзятыми» [53:28].