# Уэс Рот о VEO 3.1: «Главный конкурент Sora 2?»

Источник: https://www.youtube.com/watch?v=gScBQmq06fQ
Канал: Wes Roth
Опубликовано: 16.10.2025

---

## Новая эра видеогенерации: тест возможностей VEO 3.1
[[JUMP:0:00]]

На канале Уэса Рота вышел подробный обзор свежего релиза VEO 3.1 — новой нейросети для создания видео, которая позиционирует себя как серьёзный конкурент модели Sora 2. Автор протестировал модель в разнообразных сценариях, оценивая качество анимации, точность выполнения промптов, работу с аудио и консистентность персонажей, сравнивая полученные результаты с решениями от OpenAI.

## 🎭 Первые тесты: от боевых бабушек до мифических сражений
[[JUMP:0:26]]

Уэс Рот начал с проверки базовых навыков VEO 3.1 на динамичных сценах. В тесте с бабушкой, отпугивающей аллигатора, модель показала отличное качество, хотя произошел «сбой» в анатомии: аллигатор в процессе движения превратился в хвост. Тем не менее, во втором тесте — с другой пожилой женщиной, решительно атакующей зверя, — модель продемонстрировала выдающуюся мощь и звуковое сопровождение, за что автор поставил ей высшую оценку.

В сценарии с рыцарем, сражающимся с монстром у побережья Италии, VEO 3.1 проявила внимание к деталям: при ранении существа вода эффектно окрашивалась в цвет «крови» монстра.

## 🎤 Диалоги и «проблема микрофона»
[[JUMP:3:26]]

При попытке создать сцену интервью (полярный медведь опрашивает прохожих в Сан-Франциско) обнаружилась типичная для многих моделей проблема с логикой повествования:

*   Нейросеть иногда путает роли интервьюера и интервьюируемого.
*   Наблюдается «миграция» микрофона из руки в руку, из-за чего участники диалога периодически меняются ролями.
*   Контраргумент известен: подобные сложности с соблюдением постоянства ролей в диалоговых сценах характерны для большинства текущих видеогенераторов.

## 🦖 Сравнение с Sora 2: кто лидирует?
[[JUMP:7:08]]

Важной частью обзора стало сравнение VEO 3.1 с Sora 2. Уэс Рот отметил, что выбор победителя часто зависит от конкретной задачи:

*   **Авторский подход:** По мнению Рота, Sora 2 лучше справляется с «кинематографичностью», более сложным монтажом и созданием уникального настроения (например, в сцене прогулки по аэропорту).
*   **Отношение к авторским правам:** Автор предполагает, что Google DeepMind при создании VEO 3.1 действует гораздо осторожнее в вопросах использования защищенных интеллектуальной собственностью образов, тогда как OpenAI позволяет себе более агрессивный подход, что делает результаты в Sora 2 зачастую более узнаваемыми и «реалистичными» в контексте поп-культуры.
*   **Специфика:** VEO 3.1 показывает отличные результаты в задачах, требующих точного следования заданным элементам (например, интеграция ингредиентов: персонажей или локаций).

## 🤯 «Сложнейший промпт»: Dyson Sphere
[[JUMP:17:58]]

Рот назвал задачу по визуализации «Кольца Нивена» (Dyson ring) или сферы Дайсона одним из самых сложных тестов для ИИ-моделей. Ни VEO 3.1, ни другие опробованные им модели не смогли создать реалистичную сцену, которая адекватно передавала бы масштаб инженерного сооружения, окружающего звезду. В большинстве случаев модель генерировала просто статичное изображение в качестве фона, не справляясь с передачей физики объекта.

## 🛠 Инструментарий: ингредиенты и работа с кадрами
[[JUMP:28:40]]

VEO 3.1 предлагает гибкие настройки, включая работу с «ингредиентами» (костюмы, персонажи, локации) и возможность использования загруженных изображений как отправной точки.

*   **Функция «Re-use prompt»:** Позволяет быстро повторить успешный промпт.
*   **Интеграция текста:** Модель научилась корректно считывать текстовые инструкции, добавленные на начальный кадр, и выполнять действия (например, удаление текста или изменение объекта).
*   **Анимация переходов:** В тесте с оригами-фигурой (превращение денежной купюры в чашу) модель показала, что способна плавно анимировать трансформацию объекта, если промпт сформулирован достаточно точно.

По мнению Уэса Рота, VEO 3.1 — это мощный инструмент, который, несмотря на некоторые огрехи в логике персонажей, станет отличным решением для коммерческой видеопродукции, требующей точной настройки камер и визуальных элементов.