Google Veo 2: новый лидер в генерации видео?

Google Veo 2: новый лидер в генерации видео? 0:00

Google DeepMind представила свою новейшую модель генерации видео — Veo 2. Уэс Рот, автор одноименного YouTube-канала, отмечает, что качество демонстрируемых клипов «ошеломляет» и, по его мнению, превосходит текущих конкурентов на рынке ИИ-видео, таких как Sora от OpenAI, модели от Meta и различные китайские разработки.

Согласно данным Movie Gen Bench от Facebook Research, Veo 2 показывает лучшие результаты как в общих предпочтениях пользователей, так и в точности следования промптам (инструкциям).

Преимущества Veo 2: физика и контроль 3:31

Одной из ключевых особенностей модели является её способность создавать видео высокого разрешения — до 4K, при этом демонстрируя высокий уровень детализации. Рот подчеркивает, что Veo 2 предлагает, возможно, лучшие элементы управления камерой среди всех существующих ИИ-инструментов.

Ключевые технологические достижения модели:

Понимание физики: В отличие от предыдущих моделей, Veo 2 корректно отображает взаимодействие объектов. Примеры с собакой, прыгающей на надувном матрасе в бассейне, и анимация пузырьков под водой выглядят реалистично и физически достоверно.
Согласованность сцен: Модель демонстрирует поразительную стабильность в сложных сценах. Например, в ролике с Hot Pot (китайским самоваром) фрикадельки, вращающиеся в масле, сохраняют свою консистенцию и покрываются «аппетитным» блеском, что, по словам Уэса Рота, выглядит лучше, чем профессиональная реклама еды.
Освещение и отражения: Способность модели генерировать реалистичные отражения на поверхностях (например, зданий на капоте автомобиля или в стеклянных объектах) предполагает, что модель «понимает» 3D-пространство сцены, а не просто рисует картинку.

Сравнение с конкурентами 4:20

Уэс Рот обращает внимание на сравнительное исследование Movie Gen Bench, которое позволяет оценить модели без «вишенки на торте» (выбора только лучших примеров). В тестах на основе более тысячи промптов Veo 2 регулярно побеждает конкурентов:

Sora Turbo: Выбиралась пользователями в 26% случаев в сравнении с Veo 2.
Minimax: Выбиралась в 30% случаев.
Kling 1.5: Выбиралась в 32% случаев.
Meta Movie Gen: Выбиралась в 30% случаев.

По мнению Уэса Рота, даже ближайший конкурент, Kling AI, уступает Veo 2 как по общему качеству (32% предпочтений), так и по точности выполнения инструкций (36%).

Ограничения и перспективы 2:52

Несмотря на высокую оценку, разработчики и пользователи выделяют области, в которых Veo 2 все еще испытывает трудности:

Сложная динамика: Модель иногда с трудом справляется с сохранением целостности объектов при активном движении. Примером служит видео со скейтбордистом, где сам скейт и спортсмен могут превращаться в «неразбериху» при прыжке.
Морфинг конечностей: В сценах с фигуристкой наблюдается эффект искажения формы тела и проблемы с ногами, которые «клипают» (пропадают или меняют положение).
Артефакты: В некоторых пользовательских генерациях, например, при смешивании коктейля, бармен может внезапно терять предмет или изменять структуру стекла.

Уэс Рот отмечает, что хотя демонстрационные ролики Google DeepMind могут выглядеть почти безупречно, реальные результаты пользователей в социальных сетях иногда показывают чуть меньшую стабильность. Тем не менее, автор видео уверен, что на сегодняшний день это одна из самых впечатляющих и точных моделей генерации видео, доступных пользователям через систему предварительной записи (вейтлист),.