Янник Кильчер о Lumiere: «Это впечатляющий шаг для Google»

Yannic Kilcher 30,5 тыс. 54 мин 2 мин 04.02.2024
Главное

Lumiere: Инновационный подход Google к генерации видео 0:00

Исследователи из Google Research представили Lumiere — диффузионную модель пространства-времени, способную генерировать высококачественные видео по текстовому описанию. В отличие от многих современных систем, которые сначала создают ключевые кадры, а затем «заполняют» пространство между ними (метод временного суперразрешения, TSR), Lumiere генерирует весь временной интервал видео целиком. По мнению Янника Кильчера, такой подход обеспечивает гораздо более высокую глобальную консистентность и плавность движений.

Архитектура: как работает модель 21:12

Фундаментом Lumiere служит предобученная модель генерации изображений (text-to-image), веса которой остаются неизменными во время обучения модели для видео. Инновация заключается в добавлении временной размерности в архитектуру U-Net.

Устранение артефактов и «Multi-Diffusion» 38:29

Одной из ключевых проблем предыдущих моделей является возникновение артефактов на границах сегментов видео. Для борьбы с этим в Lumiere внедрена технология, которую авторы называют «multi-diffusion».

По словам Янника Кильчера, несмотря на сложную математическую формулировку в статье, представленную как оптимизационная задача для минимизации расхождений в перекрывающихся сегментах видео, решение сводится к простому усреднению результатов. Автор видео иронично отмечает, что включение этого метода, вероятно, было сделано ради дополнительного цитирования предыдущей работы.

Гибкость: стилизация и редактирование 2:14

Lumiere обладает впечатляющими возможностями по управлению стилем без необходимости полноценной дообучающей настройки (fine-tuning).

Критика и ограничения 5:37

Янник Кильчер выражает скепсис по поводу научной открытости представленной работы:

  1. Отсутствие деталей: Статья крайне скудна на технические подробности: неизвестен размер датасета (за исключением цифры 30 млн видео), архитектурные параметры и гиперпараметры обучения. Автор видео утверждает, что такие публикации превращаются в маркетинговые материалы, а не в научные отчеты.
  2. Длительность: Модель генерирует 5-секундные фрагменты. Хотя авторы называют это «длиннее среднего кадра в кино», Кильчер считает это лишь «красиво анимированными картинками», далекими от полноценного видеопроизводства.
  3. Автоматические метрики: Использование метрик типа Fréchet Video Distance (FVD) малоинформативно для оценки качества контента, создаваемого современными генеративными моделями.

Тем не менее, в сравнительных тестах (human preference) пользователи однозначно отдавали предпочтение результатам Lumiere перед другими моделями. Несмотря на наличие «мутных» аспектов и сомнительной методологии сравнения с конкурентами, Кильчер признает, что Lumiere является важным и заметным шагом вперед в области генерации видео.

💬 Цитаты

«Если вы пришли сюда и думали, что мы в науке, где принято описывать всё воспроизводимо, вы ошиблись.»

Янник Кильчер 05:49

«Это не видеогенерация... это просто 5-секундные анимированные картинки.»

Янник Кильчер 17:30
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Диффузионная модель
Тип модели машинного обучения, которая учится восстанавливать данные из шума.
U-Net
Архитектура нейронной сети, часто используемая в задачах обработки изображений.
Temporal Super Resolution (TSR)
Техника увеличения количества кадров в видео путем интерполяции между существующими ключевыми кадрами.
Multi-diffusion
Метод обеспечения глобальной согласованности при генерации изображений или видео из перекрывающихся сегментов.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Lumiere Google Research diffusion models