Wes Roth: «Google Genie 3 — это не просто видео, это живой мир»

Wes Roth 35,2 тыс. 23 мин 5 мин 30.01.2026
Главное

Компания Google DeepMind представила Genie 3 — продвинутую нейросетевую модель, способную превращать статичные изображения в интерактивные трехмерные миры. Ведущий канала Wes Roth протестировал возможности инструмента, который теперь доступен пользователям с подпиской Google AI Ultra. По мнению автора, технология совершает качественный скачок в создании симуляций: от простых анимаций до полноценных пространств, где можно управлять персонажем, взаимодействовать с объектами и исследовать окружение.

🌍 Google DeepMind: От статических картинок к живым мирам 1:36

Google DeepMind выпустила Genie 3 — модель «генератора миров» (world model), о которой в индустрии ИИ говорили уже давно . В отличие от обычных видеогенераторов, Genie 3 создает не просто ролик, а среду, в которой пользователь может перемещаться с помощью клавиш WASD и стрелок.

Основные технические возможности управления:

На данный момент доступ к инструменту имеют владельцы подписки Google AI Ultra. По словам Уэса Рота, хотя система иногда испытывает проблемы с пропускной способностью из-за наплыва пользователей в первый день запуска, она демонстрирует впечатляющий уровень детализации .

🐱 Физика, свет и «кошачий» реализм 2:03

В первом тесте Рота использовалось изображение черного кота в фэнтезийной таверне. Автор отмечает, что ИИ не просто «оживил» кота, но и правильно вписал его в пространство: персонаж не проваливается сквозь столы и реалистично взаимодействует с предметами .

Важно понимать, что это не работа игрового движка в привычном понимании. Весь мир, включая освещение и физические столкновения, генерируется нейросетью «на лету» на основе одной фотографии и текстового описания .

🦛 Массивность и поведение в дикой природе 5:48

Рот провел эксперимент с бегемотом в саванне, чтобы проверить, как модель передает ощущение массы и сложные взаимодействия .

Интересные наблюдения автора:

В контексте этого теста Рот напомнил зрителям о реальной природе бегемотов, показав их череп, который больше напоминает останки монстра или дракона из-за огромных зубов . По его мнению, если бы мы нашли такой череп, не зная о существовании животного, мы бы изобразили его как чудовище из ада, а не как «милое пухлое создание» .

🌲 Лесные тропы и логика пространства 8:25

Для проверки скорости и связности мира Рот использовал изображение волка в лесу. Он отметил, что Genie 3 — самая отзывчивая и быстрая модель из всех существующих аналогов, которые часто казались «вялыми» или забагованными .

Автор подчеркивает логику генерации:

Это свидетельствует о том, что у модели есть внутреннее представление о том, как устроен реальный мир, а не просто набор повторяющихся текстур.

🥊 Проблемы синхронизации и «Street Fighter» 10:27

При попытке создать мир на основе файтинга Street Fighter модель столкнулась с трудностями. В сцене присутствовало два персонажа, и поначалу они начали сражаться автономно . Однако при попытке ручного управления движения героев начали странным образом синхронизироваться: оба персонажа двигались в одну сторону одновременно, словно связанные невидимой нитью . Несмотря на это, Рот похвалил модель за сохранение когерентности при наличии двух активных фигур в кадре .

❄️ Особенности генерации: От «лихих 90-х» до аниме-поезда 12:02

Один из тестов был посвящен созданию атмосферы зимнего восточноевропейского города 90-х годов .

В эксперименте с видом от первого лица (вид из глаз) модель показала таинственный коридор. Автор, как опытный геймер, заметил «артефакты»: странные объекты в углах, которые выглядели как секретные предметы из видеоигр . По мнению Рота, это могли быть неправильно интерпретированные моделью источники света (лампы) .

Особого внимания удостоился тест с аниме-девушкой в быстро движущемся поезде .

  1. ИИ успешно отрендерил движение пейзажа за окном .
  2. Рот обнаружил странную особенность: если персонаж стоит на месте и не совершает активных действий, симуляция может длиться значительно дольше стандартных 60 секунд . Автор предполагает, что это связано с меньшими затратами вычислительных мощностей при отсутствии перемещений .

😱 Кошмары Эдварда Мунка и запуск Doom 2 18:52

Интерпретация картины «Крик» оказалась, по словам ведущего, «кошмарной» . Модель создала пугающую 3D-сцену, где перила моста выглядели объемными, но возникла техническая ошибка: лицо персонажа оказалось на затылке . Рот отметил, что этот баг с «головой задом наперед» повторился несколько раз в разных генерациях .

Финальным аккордом стал классический тест для любой вычислительной системы: «Пойдет ли на этом Doom?» .

Результаты проверки Doom 2 в Genie 3:

Рот был поражен тем, что нейросеть смогла воссоздать логику дверей и рычагов без реального программного кода игры .

🤖 Будущее: Обучение роботов и бесконечные данные 22:37

Подводя итог, Уэс Рот подчеркивает, что Genie 3 — это не просто игрушка для создания коротких видео или демо-версий игр. По заявлениям исследователей Google DeepMind, основная цель таких моделей — создание данных для обучения .

По мнению Рота, это позволит тренировать роботов в бесконечном количестве разнообразных симуляций, прежде чем выпускать их в реальный мир. Технология World Models открывает путь к созданию ИИ, который понимает физику и причинно-следственные связи нашей реальности гораздо глубже, чем нынешние текстовые чат-боты .

💬 Цитаты

«Это не анимация и не игровой движок. Это ИИ строит мир: вы даете ему изображение и просите создать это пространство.»

«Genie может запускать Doom 2. Она понимает даже, как работают двери и переключатели. Я просто поражен.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
World Model (Мировая модель)
Тип ИИ, который обучается предсказывать физические свойства и логику развития окружающего мира.
Когерентность
Свойство модели сохранять логическую связность и постоянство объектов при их движении или изменении ракурса.
Рендеринг
Процесс получения изображения по модели с помощью компьютерной программы.
📊 Цифры
🗓 Хронология
  1. 2023 Уэс Рот начал активно использовать нейросеть Midjourney для генерации изображений.
  2. Март 2024 Запуск и первый публичный тест модели Genie 3 от Google DeepMind.
⚖️ Другая сторона
Искусственный интеллект Google DeepMind Genie 3 Wes Roth World Models Doom 2