Уэс Рот о VEO 3.1: «Главный конкурент Sora 2?»

Новая эра видеогенерации: тест возможностей VEO 3.1 0:00

На канале Уэса Рота вышел подробный обзор свежего релиза VEO 3.1 — новой нейросети для создания видео, которая позиционирует себя как серьёзный конкурент модели Sora 2. Автор протестировал модель в разнообразных сценариях, оценивая качество анимации, точность выполнения промптов, работу с аудио и консистентность персонажей, сравнивая полученные результаты с решениями от OpenAI.

🎭 Первые тесты: от боевых бабушек до мифических сражений 0:26

Уэс Рот начал с проверки базовых навыков VEO 3.1 на динамичных сценах. В тесте с бабушкой, отпугивающей аллигатора, модель показала отличное качество, хотя произошел «сбой» в анатомии: аллигатор в процессе движения превратился в хвост. Тем не менее, во втором тесте — с другой пожилой женщиной, решительно атакующей зверя, — модель продемонстрировала выдающуюся мощь и звуковое сопровождение, за что автор поставил ей высшую оценку.

В сценарии с рыцарем, сражающимся с монстром у побережья Италии, VEO 3.1 проявила внимание к деталям: при ранении существа вода эффектно окрашивалась в цвет «крови» монстра.

🎤 Диалоги и «проблема микрофона» 3:26

При попытке создать сцену интервью (полярный медведь опрашивает прохожих в Сан-Франциско) обнаружилась типичная для многих моделей проблема с логикой повествования:

Нейросеть иногда путает роли интервьюера и интервьюируемого.
Наблюдается «миграция» микрофона из руки в руку, из-за чего участники диалога периодически меняются ролями.
Контраргумент известен: подобные сложности с соблюдением постоянства ролей в диалоговых сценах характерны для большинства текущих видеогенераторов.

🦖 Сравнение с Sora 2: кто лидирует? 7:08

Важной частью обзора стало сравнение VEO 3.1 с Sora 2. Уэс Рот отметил, что выбор победителя часто зависит от конкретной задачи:

Авторский подход: По мнению Рота, Sora 2 лучше справляется с «кинематографичностью», более сложным монтажом и созданием уникального настроения (например, в сцене прогулки по аэропорту).
Отношение к авторским правам: Автор предполагает, что Google DeepMind при создании VEO 3.1 действует гораздо осторожнее в вопросах использования защищенных интеллектуальной собственностью образов, тогда как OpenAI позволяет себе более агрессивный подход, что делает результаты в Sora 2 зачастую более узнаваемыми и «реалистичными» в контексте поп-культуры.
Специфика: VEO 3.1 показывает отличные результаты в задачах, требующих точного следования заданным элементам (например, интеграция ингредиентов: персонажей или локаций).

🤯 «Сложнейший промпт»: Dyson Sphere 17:58

Рот назвал задачу по визуализации «Кольца Нивена» (Dyson ring) или сферы Дайсона одним из самых сложных тестов для ИИ-моделей. Ни VEO 3.1, ни другие опробованные им модели не смогли создать реалистичную сцену, которая адекватно передавала бы масштаб инженерного сооружения, окружающего звезду. В большинстве случаев модель генерировала просто статичное изображение в качестве фона, не справляясь с передачей физики объекта.

🛠 Инструментарий: ингредиенты и работа с кадрами 28:40

VEO 3.1 предлагает гибкие настройки, включая работу с «ингредиентами» (костюмы, персонажи, локации) и возможность использования загруженных изображений как отправной точки.

Функция «Re-use prompt»: Позволяет быстро повторить успешный промпт.
Интеграция текста: Модель научилась корректно считывать текстовые инструкции, добавленные на начальный кадр, и выполнять действия (например, удаление текста или изменение объекта).
Анимация переходов: В тесте с оригами-фигурой (превращение денежной купюры в чашу) модель показала, что способна плавно анимировать трансформацию объекта, если промпт сформулирован достаточно точно.

По мнению Уэса Рота, VEO 3.1 — это мощный инструмент, который, несмотря на некоторые огрехи в логике персонажей, станет отличным решением для коммерческой видеопродукции, требующей точной настройки камер и визуальных элементов.