Уэс Рот о VEO 3: «Звук и музыка в AI-видео вышли на новый уровень»

Новая итерация нейросети для генерации видео VEO 3 от Google демонстрирует качественный скачок в интеграции визуального ряда и аудиовизуальных эффектов. Автор канала Wes Roth, Уэс Рот, провел масштабное тестирование модели, израсходовав все доступные лимиты генерации, чтобы проверить, насколько реалистично искусственный интеллект справляется со сложной физикой, синхронизацией речи и созданием музыки по текстовому описанию.

🎙️ Интеграция звука и видео: новый стандарт VEO 3 0:27

По словам Уэса Рота, новая модель VEO 3 производит глубокое впечатление благодаря возможности автоматического добавления музыки, голосов и звуковых эффектов непосредственно в процессе генерации видео . В отличие от предыдущих инструментов, где звук часто накладывался отдельно, VEO 3 интерпретирует текстовый запрос (промпт) комплексно.

Пользователю достаточно описать желаемое аудио сопровождение в том же запросе, что и видеоряд, и нейросеть «просто делает это» . Уэс Рот подчеркивает, что представленные им результаты не являются «отобранными» (cherry-picked) — это последовательная серия генераций, призванная показать реальные возможности и недостатки модели без прикрас .

🦆 Испытание физики: от погони гигантской утки до зеркальных отражений 1:09

Первым испытанием для нейросети стал абсурдный сценарий: грязный внедорожный багги, за которым по грязи гонится огромная и пугающая надувная утка.

Основные наблюдения автора:

В первой версии утка выглядела по-настоящему «угрожающей», переваливаясь вслед за грузовиком .
Вторая версия продемонстрировала отличную работу с инерцией и физикой: по мнению Уэса Рота, движение утки идеально передавало свойства массивного надувного объекта .
Четвертый вариант оказался наиболее впечатляющим, так как ИИ смог визуализировать столкновение — утка настигла багги и столкнула его с дороги .

Особое внимание Уэс Рот уделил проверке того, как VEO 3 справляется с отражениями. В промпте описывались две женщины, поднимающие зеркало, в котором зритель видит себя в образе Тираннозавра Рекса . Автор считает, что первая версия справилась с этой задачей идеально, обеспечив высокую реалистичность как самих персонажей, так и сложного оптического эффекта в зеркале .

🐙 Сложные сценарии и эффект узнавания: осьминог-хакер 3:26

Один из самых длинных промптов в тесте описывал осьминога, который выбирается из аквариума, чтобы взломать компьютер, но поспешно возвращается назад, услышав шаги человека. Сцена завершалась фразой вошедшей девушки: «Почему моя клавиатура вся мокрая?» .

Детали этого эксперимента:

Реакция человека: Уэс Рот назвал выражение лица девушки в одной из генераций «величайшей человеческой реакцией», которую он видел в AI-видео, идеально передающей недоумение .
Технические огрехи: Нейросеть не всегда справлялась с анатомией осьминога (в некоторых кадрах он казался «безголовым») и позиционированием объектов .
Странное сходство: Автор заметил пугающую деталь — сгенерированное рабочее место почти в точности повторяло его собственное, включая модель мыши Razor и клавиатуру .

🎸 Творческая синергия: музыкальные скелеты и говорящие коты 8:39

VEO 3 продемонстрировала способность генерировать музыку «на лету», основываясь на описании атмосферы. В сценарии с нежитью из Dungeons & Dragons, исполняющей гитарное соло на горе черепов перед толпой скелетов, нейросеть создала подходящий рок-саундтрек . Уэс Рот отметил, что музыка подстраивается под смену планов: например, при крупном плане исполнителя звук становится более акцентированным .

Также модель была протестирована на синхронизацию губ (lip-sync):

Сумоисты из пряжи: Уэс Рот допустил опечатку в промпте (yarm вместо yarn), но ИИ понял контекст и создал персонажей из ниток, обменивающихся колкостями .
Толстый кот на троне: В этом тесте проверялась способность передавать характер через голос. По мнению автора, первая версия лучше всего передала надменную интонацию кота, произносящего: «Я вижу, ты принес мне вкусняшки. Пожалуй, я позволю тебе жить... мяу» .

🪐 Сложные вызовы: «Мир-кольцо» и динамичные гонки 14:32

Уэс Рот признал, что промпт с «Миром-кольцом» (гигантская структура вокруг солнца в форме кольца) является одним из самых сложных для любой современной видеомодели .

VEO 3 не смогла идеально отобразить геометрию мегаструктуры, часто превращая её в кольца, подобные сатурнианским .
Тем не менее, автор считает эти попытки одними из лучших, что он видел, отмечая высокую детализацию поверхности .

При тестировании динамичных сцен (гонки на мотоциклах по дюнам и катание на коньках) модель показала отличную работу со звуковыми эффектами. Уэс Рот выделил звук скрежета коньков по льду в POV-сцене как крайне реалистичный . Однако в сцене с американскими горками нейросеть допустила ошибку в тайминге: видео обрывалось ровно перед моментом падения, который был ключевым в запросе .

❄️ Итоги и впечатления: стоит ли VEO 3 своих кредитов? 20:30

Завершая обзор, Уэс Рот назвал генерацию со снежным тигром, идущим по лесу, «оценкой А+» (высшим баллом) . Его поразила точность звука хрустящего снега под лапами зверя.

Общие выводы автора:

Интонации речи, музыка и звуковые эффекты в VEO 3 реализованы на очень высоком уровне .
Интеграция аудио и видео позволяет создавать готовый контент без необходимости сложного пост-продакшена.
Несмотря на отдельные анатомические ошибки и проблемы с геометрией, модель ощущается как «следующее поколение» ИИ-инструментов .

Уэс Рот планирует продолжить тестирование, как только обновятся его лимиты (кредиты), так как он только начал нащупывать правильные подходы к промптингу для этой модели .