Уэс Рот: «VEO 3.1 от Google — достойный ответ OpenAI, но Sora 2 всё еще лидирует в деталях»

В новом видео Уэс Рот (Wes Roth) проводит глубокий анализ VEO 3.1 — обновленной нейросети от Google DeepMind для генерации видео. Автор сравнивает возможности модели с её главным конкурентом, Sora 2 от OpenAI, проверяя нейросеть на сложных художественных и технических задачах.

🚀 Первые впечатления: VEO 3.1 против Sora 2 0:00

Уэс Рот (Wes Roth) отмечает, что VEO 3.1 позиционируется как серьезный конкурент Sora 2. Модель предлагает несколько режимов работы, включая «VEO 3.1 quality» для максимального качества и «VEO 3.1 fast» для быстрой генерации . В ходе первых тестов автор выделил высокую детализацию, хотя и заметил некоторые артефакты.

Примеры производительности:

Сцена с аллигатором: Пожилая женщина отгоняет аллигатора тростью. Нейросеть отлично справилась с анимацией удара и эмоциями персонажа . Однако был замечен физический баг: в какой-то момент тело аллигатора совершает неестественный разворот на 180 градусов, где голова превращается в хвост .
Сцена с рыцарем: Битва с монстром-осьминогом на побережье Италии в целом выглядит достойно. Уэс Рот (Wes Roth) оценил внимание к деталям: когда рыцарь разрубает щупальце, выделяется зеленая жидкость, которая затем окрашивает морскую воду .

🎤 Проблемы интеракции и генерации аудио 3:24

Одной из ключевых особенностей VEO 3.1 является генерация видео сразу со звуковым сопровождением и диалогами. Однако в тестах с интервью (белый медведь опрашивает людей в Сан-Франциско) обнаружились проблемы с логической последовательностью ролей .

Основные наблюдения автора:

Смена ролей: Нейросеть часто путает, кто задает вопрос, а кто отвечает. Микрофон в кадре может спонтанно переходить из лапы медведя в руки хиппи .
Этническое разнообразие и акценты: Уэс Рот (Wes Roth) заметил, что Google, вероятно, внедрил алгоритмы рандомизации внешности и голосов. Например, Бигфуту модель дала индийский акцент, что автор счел необычным творческим решением .
Синхронизация губ: В некоторых сценах персонажи просто начитывают текст закадровым голосом, не двигая губами (как в случае с Бигфутом) .

⚔️ Сценарии поп-культуры и авторское право 7:08

Уэс Рот (Wes Roth) провел прямое сравнение, используя одинаковые промпты (текстовые запросы) для VEO 3.1 и Sora 2, основанные на популярных вселенных (World of Warcraft, Breaking Bad, Portal 2).

Различия в подходах компаний:

Соблюдение IP (интеллектуальной собственности): По мнению Уэса Рота, Google DeepMind ведет себя гораздо осторожнее. VEO 3.1 часто меняет детали: орки становятся фиолетовыми, а декорации из Portal 2 — лишь отдаленно похожими на оригинал .
Креативность OpenAI: Sora 2 от OpenAI, напротив, генерирует контент, максимально близкий к первоисточнику, включая узнаваемые порталы, турели и голоса персонажей из «Во все тяжкие» .
Вердикт автора: В сценах с Гэндальфом и Голлумом Sora 2 победила за счет более точной передачи характеров и атмосферы, включая великолепное смешение староанглийского стиля с современным сленгом наркоторговцев («2 килограмма синих кристаллов») .

🧩 Технические возможности: «Ингредиенты» и редактирование 28:35

VEO 3.1 представила новые инструменты для управления генерацией:

Frames to video: Анимация на основе начального кадра.
Ingredients to video: Позволяет добавлять в сцену конкретные костюмы, локации или персонажей .
Интеграция текста: Модель способна считывать указания, написанные прямо на изображении. Например, Уэс Рот (Wes Roth) протестировал изображение с надписью «акула кусает сумку», и нейросеть успешно анимировала это действие, убрав сам текст из кадра .

Одним из сложнейших тестов стал «Тьюринг-тест для видеомоделей» — визуализация «Мира-кольца» (Ringworld). Ни одна из моделей пока не смогла идеально передать физику и масштабы этого объекта, но Sora 2 подошла ближе, создав более глубокую и динамичную картинку, чем статичные фоны VEO 3.1 .

🏆 Итоговое сравнение: Что лучше? 34:56

Подводя итоги, Уэс Рот (Wes Roth) отмечает, что обе модели находятся на высоком уровне, но имеют разные специализации.

Сравнение по критериям автора:

Художественность и юмор: Sora 2 остается фаворитом. Она лучше понимает нюансы плейсмента камеры, художественные склейки и юмористические контексты (например, реакцию прохожих на прогулку с гигантским богомолом) .
Музыкальное сопровождение: В Sora 2 музыка кажется более уникальной и подходящей под сцену, в то время как VEO 3.1 чаще выдает стандартные треки, похожие на «royalty-free» библиотеку .
Коммерческое использование: VEO 3.1 может быть более полезным инструментом для профессионалов благодаря функции добавления «ингредиентов» и точному контролю над объектами и фонами .

По мнению Уэса Рота, на текущий момент Sora 2 сохраняет лидерство по общему качеству «vibes» (атмосферы) и пониманию сложных запросов, но VEO 3.1 является мощным инструментом, особенно для специфических кинематографических задач .