Янник Кильчер о Lumiere: «Это впечатляющий шаг для Google»

Lumiere: Инновационный подход Google к генерации видео 0:00

Исследователи из Google Research представили Lumiere — диффузионную модель пространства-времени, способную генерировать высококачественные видео по текстовому описанию. В отличие от многих современных систем, которые сначала создают ключевые кадры, а затем «заполняют» пространство между ними (метод временного суперразрешения, TSR), Lumiere генерирует весь временной интервал видео целиком. По мнению Янника Кильчера, такой подход обеспечивает гораздо более высокую глобальную консистентность и плавность движений.

Архитектура: как работает модель 21:12

Фундаментом Lumiere служит предобученная модель генерации изображений (text-to-image), веса которой остаются неизменными во время обучения модели для видео. Инновация заключается в добавлении временной размерности в архитектуру U-Net.

Пространственно-временная U-Net (STU): Модель сжимает входящие данные не только по ширине и высоте, но и по времени, выполняя основную вычислительную работу в компактном представлении.
Факторизованная свертка: Исследователи отказались от использования 3D-сверток в пользу раздельных 2D-сверток (для каждого кадра отдельно) и 1D-сверток (вдоль временной оси), что позволяет эффективно обрабатывать видеоданные.
Глобальный обмен информацией: На самом низком (наиболее сжатом) уровне модели применяются слои внимания (attention), которые позволяют модели достичь глобальной согласованности видео, обеспечивая обмен информацией между всеми кадрами.

Устранение артефактов и «Multi-Diffusion» 38:29

Одной из ключевых проблем предыдущих моделей является возникновение артефактов на границах сегментов видео. Для борьбы с этим в Lumiere внедрена технология, которую авторы называют «multi-diffusion».

По словам Янника Кильчера, несмотря на сложную математическую формулировку в статье, представленную как оптимизационная задача для минимизации расхождений в перекрывающихся сегментах видео, решение сводится к простому усреднению результатов. Автор видео иронично отмечает, что включение этого метода, вероятно, было сделано ради дополнительного цитирования предыдущей работы.

Гибкость: стилизация и редактирование 2:14

Lumiere обладает впечатляющими возможностями по управлению стилем без необходимости полноценной дообучающей настройки (fine-tuning).

Замена весов: Поскольку модель построена на базе предобученной text-to-image системы, замена этих «базовых» весов на стилизованные позволяет мгновенно менять визуальный ряд видео.
Адаптация концепции: Самое примечательное, по словам Кильчера, заключается в том, что изменение стиля влияет не только на внешний вид пикселей, но и на сам характер движений в видео. Например, при выборе стиля «карандашный набросок» модель начинает имитировать процесс отрисовки линий, что, вероятно, объясняется наличием обучающих примеров с подобным процессом в исходном датасете.

Критика и ограничения 5:37

Янник Кильчер выражает скепсис по поводу научной открытости представленной работы:

Отсутствие деталей: Статья крайне скудна на технические подробности: неизвестен размер датасета (за исключением цифры 30 млн видео), архитектурные параметры и гиперпараметры обучения. Автор видео утверждает, что такие публикации превращаются в маркетинговые материалы, а не в научные отчеты.
Длительность: Модель генерирует 5-секундные фрагменты. Хотя авторы называют это «длиннее среднего кадра в кино», Кильчер считает это лишь «красиво анимированными картинками», далекими от полноценного видеопроизводства.
Автоматические метрики: Использование метрик типа Fréchet Video Distance (FVD) малоинформативно для оценки качества контента, создаваемого современными генеративными моделями.

Тем не менее, в сравнительных тестах (human preference) пользователи однозначно отдавали предпочтение результатам Lumiere перед другими моделями. Несмотря на наличие «мутных» аспектов и сомнительной методологии сравнения с конкурентами, Кильчер признает, что Lumiere является важным и заметным шагом вперед в области генерации видео.