# Уэс Рот: «VEO 3.1 от Google — достойный ответ OpenAI, но Sora 2 всё еще лидирует в деталях»

Источник: https://www.youtube.com/watch?v=gScBQmq06fQ
Канал: Wes Roth
Опубликовано: 16.10.2025

---

В новом видео Уэс Рот (Wes Roth) проводит глубокий анализ VEO 3.1 — обновленной нейросети от Google DeepMind для генерации видео. Автор сравнивает возможности модели с её главным конкурентом, Sora 2 от OpenAI, проверяя нейросеть на сложных художественных и технических задачах.

## 🚀 Первые впечатления: VEO 3.1 против Sora 2
[[JUMP:0:00]]

Уэс Рот (Wes Roth) отмечает, что VEO 3.1 позиционируется как серьезный конкурент Sora 2. Модель предлагает несколько режимов работы, включая «VEO 3.1 quality» для максимального качества и «VEO 3.1 fast» для быстрой генерации [0:41]. В ходе первых тестов автор выделил высокую детализацию, хотя и заметил некоторые артефакты.

Примеры производительности:

*   **Сцена с аллигатором:** Пожилая женщина отгоняет аллигатора тростью. Нейросеть отлично справилась с анимацией удара и эмоциями персонажа [1:42]. Однако был замечен физический баг: в какой-то момент тело аллигатора совершает неестественный разворот на 180 градусов, где голова превращается в хвост [1:12].
*   **Сцена с рыцарем:** Битва с монстром-осьминогом на побережье Италии в целом выглядит достойно. Уэс Рот (Wes Roth) оценил внимание к деталям: когда рыцарь разрубает щупальце, выделяется зеленая жидкость, которая затем окрашивает морскую воду [2:58].

## 🎤 Проблемы интеракции и генерации аудио
[[JUMP:3:24]]

Одной из ключевых особенностей VEO 3.1 является генерация видео сразу со звуковым сопровождением и диалогами. Однако в тестах с интервью (белый медведь опрашивает людей в Сан-Франциско) обнаружились проблемы с логической последовательностью ролей [4:02].

Основные наблюдения автора:

1.  **Смена ролей:** Нейросеть часто путает, кто задает вопрос, а кто отвечает. Микрофон в кадре может спонтанно переходить из лапы медведя в руки хиппи [4:53].
2.  **Этническое разнообразие и акценты:** Уэс Рот (Wes Roth) заметил, что Google, вероятно, внедрил алгоритмы рандомизации внешности и голосов. Например, Бигфуту модель дала индийский акцент, что автор счел необычным творческим решением [10:25].
3.  **Синхронизация губ:** В некоторых сценах персонажи просто начитывают текст закадровым голосом, не двигая губами (как в случае с Бигфутом) [10:12].

## ⚔️ Сценарии поп-культуры и авторское право
[[JUMP:7:08]]

Уэс Рот (Wes Roth) провел прямое сравнение, используя одинаковые промпты (текстовые запросы) для VEO 3.1 и Sora 2, основанные на популярных вселенных (World of Warcraft, Breaking Bad, Portal 2).

Различия в подходах компаний:

*   **Соблюдение IP (интеллектуальной собственности):** По мнению Уэса Рота, Google DeepMind ведет себя гораздо осторожнее. VEO 3.1 часто меняет детали: орки становятся фиолетовыми, а декорации из Portal 2 — лишь отдаленно похожими на оригинал [17:31].
*   **Креативность OpenAI:** Sora 2 от OpenAI, напротив, генерирует контент, максимально близкий к первоисточнику, включая узнаваемые порталы, турели и голоса персонажей из «Во все тяжкие» [21:50].
*   **Вердикт автора:** В сценах с Гэндальфом и Голлумом Sora 2 победила за счет более точной передачи характеров и атмосферы, включая великолепное смешение староанглийского стиля с современным сленгом наркоторговцев («2 килограмма синих кристаллов») [22:50].

## 🧩 Технические возможности: «Ингредиенты» и редактирование
[[JUMP:28:35]]

VEO 3.1 представила новые инструменты для управления генерацией:

*   **Frames to video:** Анимация на основе начального кадра.
*   **Ingredients to video:** Позволяет добавлять в сцену конкретные костюмы, локации или персонажей [28:53].
*   **Интеграция текста:** Модель способна считывать указания, написанные прямо на изображении. Например, Уэс Рот (Wes Roth) протестировал изображение с надписью «акула кусает сумку», и нейросеть успешно анимировала это действие, убрав сам текст из кадра [32:44].

Одним из сложнейших тестов стал «Тьюринг-тест для видеомоделей» — визуализация «Мира-кольца» (Ringworld). Ни одна из моделей пока не смогла идеально передать физику и масштабы этого объекта, но Sora 2 подошла ближе, создав более глубокую и динамичную картинку, чем статичные фоны VEO 3.1 [20:50].

## 🏆 Итоговое сравнение: Что лучше?
[[JUMP:34:56]]

Подводя итоги, Уэс Рот (Wes Roth) отмечает, что обе модели находятся на высоком уровне, но имеют разные специализации.

Сравнение по критериям автора:

1.  **Художественность и юмор:** Sora 2 остается фаворитом. Она лучше понимает нюансы плейсмента камеры, художественные склейки и юмористические контексты (например, реакцию прохожих на прогулку с гигантским богомолом) [14:00].
2.  **Музыкальное сопровождение:** В Sora 2 музыка кажется более уникальной и подходящей под сцену, в то время как VEO 3.1 чаще выдает стандартные треки, похожие на «royalty-free» библиотеку [26:13].
3.  **Коммерческое использование:** VEO 3.1 может быть более полезным инструментом для профессионалов благодаря функции добавления «ингредиентов» и точному контролю над объектами и фонами [35:20].

По мнению Уэса Рота, на текущий момент Sora 2 сохраняет лидерство по общему качеству «vibes» (атмосферы) и пониманию сложных запросов, но VEO 3.1 является мощным инструментом, особенно для специфических кинематографических задач [35:08].