Уэс Рот: возможности и ограничения Runway Gen 4

Революция в генерации видео: обзор возможностей Runway Gen 4 0:00

Компания Runway представила Gen 4 — свою самую мощную модель для генерации видео на сегодняшний день. Главным прорывом новинки стало достижение «мировой согласованности» (world consistency), позволяющей создавать видео с неизменными персонажами, объектами, локациями и условиями освещения в разных сценах. По мнению Уэса Рота, верившего в потенциал модели, инструмент уже доступен пользователям платных тарифных планов и показывает впечатляющие результаты, которые редко требуют отбора (черри-пикинга) для получения качественного контента.

🎬 Новые стандарты повествования и консистентности 1:34

Основная задача Gen 4 — дать создателям возможность снимать полноценный нарративный контент с сохранением непрерывности. Уэс Рот отмечает, что теперь можно планировать сцены с намерением, управляя поведением персонажей и камеры.

Консистентность персонажей: Модель способна переносить одного и того же героя в разные условия освещения, сохраняя его уникальные черты, эмоции и действия.
Использование внешних объектов: Пользователи могут загрузить фотографию любого предмета (например, игрушки) и интегрировать его в любую сгенерированную среду.
Визуальные эффекты: В демонстрационном ролике «New York is a zoo» показано объединение реальных фото Нью-Йорка с изображениями животных, где модель демонстрирует глубокое понимание физики, веса и взаимодействия объектов с поверхностью.

🛠 Практическое тестирование и работа с промптами 11:13

В ходе личного тестирования Уэс Рот применил Gen 4 для реализации различных сценариев, опираясь на рекомендации разработчиков начинать с простых инструкций. Важную роль в формировании результата играют дескрипторы субъекта, движения камеры и стиля сцены.

Основные наблюдения автора канала:

Точность начальных кадров: Gen 4 феноменально справляется с переносом изображений (например, созданных в Midjourney) в видеоформат, сохраняя верность деталям в первые секунды.
Сложность динамики: При попытке создать сложные движения, такие как «вращающаяся женщина и вращающаяся в противоположную сторону камера», модель иногда сталкивается с трудностями, выдавая нежелательный морфинг.
Анимация без текста: В серии тестов с использованием 18 изображений из Midjourney без текстовых инструкций модель продемонстрировала высокую способность «додумывать» развитие сцены — от оживления статичных персонажей до создания параллакс-эффектов на основе композиции кадра.
Контроль камеры: Рот отмечает, что хотя текстовые инструкции не всегда буквально интерпретируются как специфические операторские движения, сама модель отлично справляется с генерацией качественных кинематографичных планов.

🚀 Будущее нейросетевого кинопроизводства 35:11

По словам автора, Runway делает серьезную ставку на профессиональный сегмент, стремясь привлечь киностудии и художников к использованию платформы для создания полноценных фильмов. Уэс Рот задается вопросом, станет ли это начало новой эры в кино или останется нишевым инструментом. Несмотря на отдельные логические ошибки в генерациях (например, «исчезновение» машин или странные искажения конечностей), прогресс в сохранении консистентности делает Gen 4 мощным творческим партнером для быстрого воплощения идей.