# Янник Кильчер о Lumiere: «Это впечатляющий шаг для Google»

Источник: https://www.youtube.com/watch?v=Pl8BET_K1mc
Канал: Yannic Kilcher
Опубликовано: 04.02.2024

---

## Lumiere: Инновационный подход Google к генерации видео

[[JUMP:0:00]]

Исследователи из Google Research представили Lumiere — диффузионную модель пространства-времени, способную генерировать высококачественные видео по текстовому описанию. В отличие от многих современных систем, которые сначала создают ключевые кадры, а затем «заполняют» пространство между ними (метод временного суперразрешения, TSR), Lumiere генерирует весь временной интервал видео целиком. По мнению Янника Кильчера, такой подход обеспечивает гораздо более высокую глобальную консистентность и плавность движений.

### Архитектура: как работает модель

[[JUMP:21:12]]

Фундаментом Lumiere служит предобученная модель генерации изображений (text-to-image), веса которой остаются неизменными во время обучения модели для видео. Инновация заключается в добавлении временной размерности в архитектуру U-Net.

*   **Пространственно-временная U-Net (STU):** Модель сжимает входящие данные не только по ширине и высоте, но и по времени, выполняя основную вычислительную работу в компактном представлении.
*   **Факторизованная свертка:** Исследователи отказались от использования 3D-сверток в пользу раздельных 2D-сверток (для каждого кадра отдельно) и 1D-сверток (вдоль временной оси), что позволяет эффективно обрабатывать видеоданные.
*   **Глобальный обмен информацией:** На самом низком (наиболее сжатом) уровне модели применяются слои внимания (attention), которые позволяют модели достичь глобальной согласованности видео, обеспечивая обмен информацией между всеми кадрами.

### Устранение артефактов и «Multi-Diffusion»

[[JUMP:38:29]]

Одной из ключевых проблем предыдущих моделей является возникновение артефактов на границах сегментов видео. Для борьбы с этим в Lumiere внедрена технология, которую авторы называют «multi-diffusion».

По словам Янника Кильчера, несмотря на сложную математическую формулировку в статье, представленную как оптимизационная задача для минимизации расхождений в перекрывающихся сегментах видео, решение сводится к простому усреднению результатов. Автор видео иронично отмечает, что включение этого метода, вероятно, было сделано ради дополнительного цитирования предыдущей работы.

### Гибкость: стилизация и редактирование

[[JUMP:2:14]]

Lumiere обладает впечатляющими возможностями по управлению стилем без необходимости полноценной дообучающей настройки (fine-tuning).

*   **Замена весов:** Поскольку модель построена на базе предобученной text-to-image системы, замена этих «базовых» весов на стилизованные позволяет мгновенно менять визуальный ряд видео.
*   **Адаптация концепции:** Самое примечательное, по словам Кильчера, заключается в том, что изменение стиля влияет не только на внешний вид пикселей, но и на сам характер движений в видео. Например, при выборе стиля «карандашный набросок» модель начинает имитировать процесс отрисовки линий, что, вероятно, объясняется наличием обучающих примеров с подобным процессом в исходном датасете.

### Критика и ограничения

[[JUMP:5:37]]

Янник Кильчер выражает скепсис по поводу научной открытости представленной работы:

1.  **Отсутствие деталей:** Статья крайне скудна на технические подробности: неизвестен размер датасета (за исключением цифры 30 млн видео), архитектурные параметры и гиперпараметры обучения. Автор видео утверждает, что такие публикации превращаются в маркетинговые материалы, а не в научные отчеты.
2.  **Длительность:** Модель генерирует 5-секундные фрагменты. Хотя авторы называют это «длиннее среднего кадра в кино», Кильчер считает это лишь «красиво анимированными картинками», далекими от полноценного видеопроизводства.
3.  **Автоматические метрики:** Использование метрик типа Fréchet Video Distance (FVD) малоинформативно для оценки качества контента, создаваемого современными генеративными моделями.

Тем не менее, в сравнительных тестах (human preference) пользователи однозначно отдавали предпочтение результатам Lumiere перед другими моделями. Несмотря на наличие «мутных» аспектов и сомнительной методологии сравнения с конкурентами, Кильчер признает, что Lumiere является важным и заметным шагом вперед в области генерации видео.