Уэс Рот: «VEO 3.1 от Google — достойный ответ OpenAI, но Sora 2 всё еще лидирует в деталях»

Wes Roth 39,7 тыс. 35 мин 3 мин 16.10.2025
Главное

В новом видео Уэс Рот (Wes Roth) проводит глубокий анализ VEO 3.1 — обновленной нейросети от Google DeepMind для генерации видео. Автор сравнивает возможности модели с её главным конкурентом, Sora 2 от OpenAI, проверяя нейросеть на сложных художественных и технических задачах.

🚀 Первые впечатления: VEO 3.1 против Sora 2 0:00

Уэс Рот (Wes Roth) отмечает, что VEO 3.1 позиционируется как серьезный конкурент Sora 2. Модель предлагает несколько режимов работы, включая «VEO 3.1 quality» для максимального качества и «VEO 3.1 fast» для быстрой генерации . В ходе первых тестов автор выделил высокую детализацию, хотя и заметил некоторые артефакты.

Примеры производительности:

🎤 Проблемы интеракции и генерации аудио 3:24

Одной из ключевых особенностей VEO 3.1 является генерация видео сразу со звуковым сопровождением и диалогами. Однако в тестах с интервью (белый медведь опрашивает людей в Сан-Франциско) обнаружились проблемы с логической последовательностью ролей .

Основные наблюдения автора:

  1. Смена ролей: Нейросеть часто путает, кто задает вопрос, а кто отвечает. Микрофон в кадре может спонтанно переходить из лапы медведя в руки хиппи .
  2. Этническое разнообразие и акценты: Уэс Рот (Wes Roth) заметил, что Google, вероятно, внедрил алгоритмы рандомизации внешности и голосов. Например, Бигфуту модель дала индийский акцент, что автор счел необычным творческим решением .
  3. Синхронизация губ: В некоторых сценах персонажи просто начитывают текст закадровым голосом, не двигая губами (как в случае с Бигфутом) .

⚔️ Сценарии поп-культуры и авторское право 7:08

Уэс Рот (Wes Roth) провел прямое сравнение, используя одинаковые промпты (текстовые запросы) для VEO 3.1 и Sora 2, основанные на популярных вселенных (World of Warcraft, Breaking Bad, Portal 2).

Различия в подходах компаний:

🧩 Технические возможности: «Ингредиенты» и редактирование 28:35

VEO 3.1 представила новые инструменты для управления генерацией:

Одним из сложнейших тестов стал «Тьюринг-тест для видеомоделей» — визуализация «Мира-кольца» (Ringworld). Ни одна из моделей пока не смогла идеально передать физику и масштабы этого объекта, но Sora 2 подошла ближе, создав более глубокую и динамичную картинку, чем статичные фоны VEO 3.1 .

🏆 Итоговое сравнение: Что лучше? 34:56

Подводя итоги, Уэс Рот (Wes Roth) отмечает, что обе модели находятся на высоком уровне, но имеют разные специализации.

Сравнение по критериям автора:

  1. Художественность и юмор: Sora 2 остается фаворитом. Она лучше понимает нюансы плейсмента камеры, художественные склейки и юмористические контексты (например, реакцию прохожих на прогулку с гигантским богомолом) .
  2. Музыкальное сопровождение: В Sora 2 музыка кажется более уникальной и подходящей под сцену, в то время как VEO 3.1 чаще выдает стандартные треки, похожие на «royalty-free» библиотеку .
  3. Коммерческое использование: VEO 3.1 может быть более полезным инструментом для профессионалов благодаря функции добавления «ингредиентов» и точному контролю над объектами и фонами .

По мнению Уэса Рота, на текущий момент Sora 2 сохраняет лидерство по общему качеству «vibes» (атмосферы) и пониманию сложных запросов, но VEO 3.1 является мощным инструментом, особенно для специфических кинематографических задач .

💬 Цитаты

«Sora 2 чувствует себя более артистичной: больше склеек, лучше музыка, лучшее соответствие промпту по 'вайбу'.»

«Google DeepMind, вероятно, не хочет играть в игры с нарушением авторских прав, в то время как OpenAI действует агрессивнее.»

👥 Спикер
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Промпт
Текстовый запрос, на основе которого нейросеть генерирует контент.
Артефакты
Визуальные ошибки или искажения в сгенерированном нейросетью видео.
Синхронизация губ (Lip sync)
Процесс сопоставления движений губ персонажа со звуковой дорожкой.
IP (Intellectual Property)
Интеллектуальная собственность, включая персонажей и сеттинги известных игр и фильмов.
📊 Цифры
🗓 Хронология
  1. Май 2024 Анонс первых версий видеомоделей от Google и OpenAI.
  2. Октябрь 2024 Выход VEO 3.1 и начало первых сравнительных тестов пользователями.
⚖️ Другая сторона
Искусственный интеллект VEO 3.1 Google DeepMind Sora 2 Уэс Рот OpenAI