Уэс Рот о VEO 3: «Звук и музыка в AI-видео вышли на новый уровень»

Wes Roth 111 тыс. 21 мин 4 мин 21.05.2025
Главное

Новая итерация нейросети для генерации видео VEO 3 от Google демонстрирует качественный скачок в интеграции визуального ряда и аудиовизуальных эффектов. Автор канала Wes Roth, Уэс Рот, провел масштабное тестирование модели, израсходовав все доступные лимиты генерации, чтобы проверить, насколько реалистично искусственный интеллект справляется со сложной физикой, синхронизацией речи и созданием музыки по текстовому описанию.

🎙️ Интеграция звука и видео: новый стандарт VEO 3 0:27

По словам Уэса Рота, новая модель VEO 3 производит глубокое впечатление благодаря возможности автоматического добавления музыки, голосов и звуковых эффектов непосредственно в процессе генерации видео . В отличие от предыдущих инструментов, где звук часто накладывался отдельно, VEO 3 интерпретирует текстовый запрос (промпт) комплексно.

Пользователю достаточно описать желаемое аудио сопровождение в том же запросе, что и видеоряд, и нейросеть «просто делает это» . Уэс Рот подчеркивает, что представленные им результаты не являются «отобранными» (cherry-picked) — это последовательная серия генераций, призванная показать реальные возможности и недостатки модели без прикрас .

🦆 Испытание физики: от погони гигантской утки до зеркальных отражений 1:09

Первым испытанием для нейросети стал абсурдный сценарий: грязный внедорожный багги, за которым по грязи гонится огромная и пугающая надувная утка.

Основные наблюдения автора:

Особое внимание Уэс Рот уделил проверке того, как VEO 3 справляется с отражениями. В промпте описывались две женщины, поднимающие зеркало, в котором зритель видит себя в образе Тираннозавра Рекса . Автор считает, что первая версия справилась с этой задачей идеально, обеспечив высокую реалистичность как самих персонажей, так и сложного оптического эффекта в зеркале .

🐙 Сложные сценарии и эффект узнавания: осьминог-хакер 3:26

Один из самых длинных промптов в тесте описывал осьминога, который выбирается из аквариума, чтобы взломать компьютер, но поспешно возвращается назад, услышав шаги человека. Сцена завершалась фразой вошедшей девушки: «Почему моя клавиатура вся мокрая?» .

Детали этого эксперимента:

🎸 Творческая синергия: музыкальные скелеты и говорящие коты 8:39

VEO 3 продемонстрировала способность генерировать музыку «на лету», основываясь на описании атмосферы. В сценарии с нежитью из Dungeons & Dragons, исполняющей гитарное соло на горе черепов перед толпой скелетов, нейросеть создала подходящий рок-саундтрек . Уэс Рот отметил, что музыка подстраивается под смену планов: например, при крупном плане исполнителя звук становится более акцентированным .

Также модель была протестирована на синхронизацию губ (lip-sync):

  1. Сумоисты из пряжи: Уэс Рот допустил опечатку в промпте (yarm вместо yarn), но ИИ понял контекст и создал персонажей из ниток, обменивающихся колкостями .
  2. Толстый кот на троне: В этом тесте проверялась способность передавать характер через голос. По мнению автора, первая версия лучше всего передала надменную интонацию кота, произносящего: «Я вижу, ты принес мне вкусняшки. Пожалуй, я позволю тебе жить... мяу» .

🪐 Сложные вызовы: «Мир-кольцо» и динамичные гонки 14:32

Уэс Рот признал, что промпт с «Миром-кольцом» (гигантская структура вокруг солнца в форме кольца) является одним из самых сложных для любой современной видеомодели .

При тестировании динамичных сцен (гонки на мотоциклах по дюнам и катание на коньках) модель показала отличную работу со звуковыми эффектами. Уэс Рот выделил звук скрежета коньков по льду в POV-сцене как крайне реалистичный . Однако в сцене с американскими горками нейросеть допустила ошибку в тайминге: видео обрывалось ровно перед моментом падения, который был ключевым в запросе .

❄️ Итоги и впечатления: стоит ли VEO 3 своих кредитов? 20:30

Завершая обзор, Уэс Рот назвал генерацию со снежным тигром, идущим по лесу, «оценкой А+» (высшим баллом) . Его поразила точность звука хрустящего снега под лапами зверя.

Общие выводы автора:

Уэс Рот планирует продолжить тестирование, как только обновятся его лимиты (кредиты), так как он только начал нащупывать правильные подходы к промптингу для этой модели .

💬 Цитаты

«Что меня поражает, так это то, что музыка генерируется на лету, просто чтобы соответствовать описанию.»

«Я чувствую, что израсходовал свои кредиты слишком быстро, как раз когда начал понимать, как правильно составлять промпты.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VEO 3
Третья версия модели искусственного интеллекта от Google для генерации видео по текстовому описанию.
Промпт (Prompt)
Текстовый запрос, который пользователь вводит для управления генерацией контента нейросетью.
Lip-sync
Технология синхронизации движений губ персонажа с произносимым аудиорядом.
Мир-кольцо (Ring world)
Гипотетическая астроинженерная мегаструктура в форме кольца, опоясывающего звезду.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект VEO 3 Google Wes Roth генерация видео нейросети