# Уэс Рот о VEO 3: «Звук и музыка в AI-видео вышли на новый уровень»

Источник: https://www.youtube.com/watch?v=Xy2VtdxqSJQ
Канал: Wes Roth
Опубликовано: 21.05.2025

---

Новая итерация нейросети для генерации видео VEO 3 от Google демонстрирует качественный скачок в интеграции визуального ряда и аудиовизуальных эффектов. Автор канала Wes Roth, Уэс Рот, провел масштабное тестирование модели, израсходовав все доступные лимиты генерации, чтобы проверить, насколько реалистично искусственный интеллект справляется со сложной физикой, синхронизацией речи и созданием музыки по текстовому описанию.

## 🎙️ Интеграция звука и видео: новый стандарт VEO 3
[[JUMP:00:27]]

По словам Уэса Рота, новая модель VEO 3 производит глубокое впечатление благодаря возможности автоматического добавления музыки, голосов и звуковых эффектов непосредственно в процессе генерации видео [00:41]. В отличие от предыдущих инструментов, где звук часто накладывался отдельно, VEO 3 интерпретирует текстовый запрос (промпт) комплексно.

Пользователю достаточно описать желаемое аудио сопровождение в том же запросе, что и видеоряд, и нейросеть «просто делает это» [00:56]. Уэс Рот подчеркивает, что представленные им результаты не являются «отобранными» (cherry-picked) — это последовательная серия генераций, призванная показать реальные возможности и недостатки модели без прикрас [01:09].

## 🦆 Испытание физики: от погони гигантской утки до зеркальных отражений
[[JUMP:01:09]]

Первым испытанием для нейросети стал абсурдный сценарий: грязный внедорожный багги, за которым по грязи гонится огромная и пугающая надувная утка.

Основные наблюдения автора:

*   В первой версии утка выглядела по-настоящему «угрожающей», переваливаясь вслед за грузовиком [01:23].
*   Вторая версия продемонстрировала отличную работу с инерцией и физикой: по мнению Уэса Рота, движение утки идеально передавало свойства массивного надувного объекта [01:50].
*   Четвертый вариант оказался наиболее впечатляющим, так как ИИ смог визуализировать столкновение — утка настигла багги и столкнула его с дороги [02:16].

Особое внимание Уэс Рот уделил проверке того, как VEO 3 справляется с отражениями. В промпте описывались две женщины, поднимающие зеркало, в котором зритель видит себя в образе Тираннозавра Рекса [02:30]. Автор считает, что первая версия справилась с этой задачей идеально, обеспечив высокую реалистичность как самих персонажей, так и сложного оптического эффекта в зеркале [02:44].

## 🐙 Сложные сценарии и эффект узнавания: осьминог-хакер
[[JUMP:03:26]]

Один из самых длинных промптов в тесте описывал осьминога, который выбирается из аквариума, чтобы взломать компьютер, но поспешно возвращается назад, услышав шаги человека. Сцена завершалась фразой вошедшей девушки: «Почему моя клавиатура вся мокрая?» [03:42].

Детали этого эксперимента:

*   **Реакция человека:** Уэс Рот назвал выражение лица девушки в одной из генераций «величайшей человеческой реакцией», которую он видел в AI-видео, идеально передающей недоумение [04:50].
*   **Технические огрехи:** Нейросеть не всегда справлялась с анатомией осьминога (в некоторых кадрах он казался «безголовым») и позиционированием объектов [05:02].
*   **Странное сходство:** Автор заметил пугающую деталь — сгенерированное рабочее место почти в точности повторяло его собственное, включая модель мыши Razor и клавиатуру [05:29].

## 🎸 Творческая синергия: музыкальные скелеты и говорящие коты
[[JUMP:08:39]]

VEO 3 продемонстрировала способность генерировать музыку «на лету», основываясь на описании атмосферы. В сценарии с нежитью из Dungeons & Dragons, исполняющей гитарное соло на горе черепов перед толпой скелетов, нейросеть создала подходящий рок-саундтрек [08:55]. Уэс Рот отметил, что музыка подстраивается под смену планов: например, при крупном плане исполнителя звук становится более акцентированным [09:08].

Также модель была протестирована на синхронизацию губ (lip-sync):

1.  **Сумоисты из пряжи:** Уэс Рот допустил опечатку в промпте (yarm вместо yarn), но ИИ понял контекст и создал персонажей из ниток, обменивающихся колкостями [09:59].
2.  **Толстый кот на троне:** В этом тесте проверялась способность передавать характер через голос. По мнению автора, первая версия лучше всего передала надменную интонацию кота, произносящего: «Я вижу, ты принес мне вкусняшки. Пожалуй, я позволю тебе жить... мяу» [13:51].

## 🪐 Сложные вызовы: «Мир-кольцо» и динамичные гонки
[[JUMP:14:32]]

Уэс Рот признал, что промпт с «Миром-кольцом» (гигантская структура вокруг солнца в форме кольца) является одним из самых сложных для любой современной видеомодели [14:46].

*   VEO 3 не смогла идеально отобразить геометрию мегаструктуры, часто превращая её в кольца, подобные сатурнианским [15:40].
*   Тем не менее, автор считает эти попытки одними из лучших, что он видел, отмечая высокую детализацию поверхности [15:54].

При тестировании динамичных сцен (гонки на мотоциклах по дюнам и катание на коньках) модель показала отличную работу со звуковыми эффектами. Уэс Рот выделил звук скрежета коньков по льду в POV-сцене как крайне реалистичный [16:54]. Однако в сцене с американскими горками нейросеть допустила ошибку в тайминге: видео обрывалось ровно перед моментом падения, который был ключевым в запросе [18:55].

## ❄️ Итоги и впечатления: стоит ли VEO 3 своих кредитов?
[[JUMP:20:30]]

Завершая обзор, Уэс Рот назвал генерацию со снежным тигром, идущим по лесу, «оценкой А+» (высшим баллом) [20:27]. Его поразила точность звука хрустящего снега под лапами зверя.

Общие выводы автора:

*   Интонации речи, музыка и звуковые эффекты в VEO 3 реализованы на очень высоком уровне [20:41].
*   Интеграция аудио и видео позволяет создавать готовый контент без необходимости сложного пост-продакшена.
*   Несмотря на отдельные анатомические ошибки и проблемы с геометрией, модель ощущается как «следующее поколение» ИИ-инструментов [21:07].

Уэс Рот планирует продолжить тестирование, как только обновятся его лимиты (кредиты), так как он только начал нащупывать правильные подходы к промптингу для этой модели [20:54].