Wes Roth: «Google Genie 3 — это не просто видео, это живой мир»

Компания Google DeepMind представила Genie 3 — продвинутую нейросетевую модель, способную превращать статичные изображения в интерактивные трехмерные миры. Ведущий канала Wes Roth протестировал возможности инструмента, который теперь доступен пользователям с подпиской Google AI Ultra. По мнению автора, технология совершает качественный скачок в создании симуляций: от простых анимаций до полноценных пространств, где можно управлять персонажем, взаимодействовать с объектами и исследовать окружение.

🌍 Google DeepMind: От статических картинок к живым мирам 1:36

Google DeepMind выпустила Genie 3 — модель «генератора миров» (world model), о которой в индустрии ИИ говорили уже давно . В отличие от обычных видеогенераторов, Genie 3 создает не просто ролик, а среду, в которой пользователь может перемещаться с помощью клавиш WASD и стрелок.

Основные технические возможности управления:

Перемещение персонажа вперед, назад и в стороны (WASD).
Обзор на 360 градусов с помощью стрелок на клавиатуре .
Прыжки (клавиша пробел), позволяющие преодолевать препятствия .

На данный момент доступ к инструменту имеют владельцы подписки Google AI Ultra. По словам Уэса Рота, хотя система иногда испытывает проблемы с пропускной способностью из-за наплыва пользователей в первый день запуска, она демонстрирует впечатляющий уровень детализации .

🐱 Физика, свет и «кошачий» реализм 2:03

В первом тесте Рота использовалось изображение черного кота в фэнтезийной таверне. Автор отмечает, что ИИ не просто «оживил» кота, но и правильно вписал его в пространство: персонаж не проваливается сквозь столы и реалистично взаимодействует с предметами .

Взаимодействие с окружением: Кот в симуляции может сбивать предметы с полок, что Рот назвал «высшей степенью реализма» для поведения кошачьих .
Освещение: В другом примере с девушкой в темной квартире ИИ продемонстрировал мастерство рендеринга света . По мнению ведущего, свет, падающий из окна в пасмурный день, выглядит идеально: он динамически меняется на персонаже при поворотах и движении .

Важно понимать, что это не работа игрового движка в привычном понимании. Весь мир, включая освещение и физические столкновения, генерируется нейросетью «на лету» на основе одной фотографии и текстового описания .

🦛 Массивность и поведение в дикой природе 5:48

Рот провел эксперимент с бегемотом в саванне, чтобы проверить, как модель передает ощущение массы и сложные взаимодействия .

Интересные наблюдения автора:

Ощущение веса: Управление бегемотом ощущалось «тяжелым» по сравнению с легким котом. Рот утверждает, что при движении чувствовалась инерция и массивность животного .
Сложные среды: При выходе из воды на грязный берег модель изменила характер движения — персонаж начал реалистично буксовать и «тонуть» в грязи .
Социальное взаимодействие: Когда бегемот приблизился к стаду антилоп, он начал буквально расталкивать их, и другие животные реагировали на его присутствие .

В контексте этого теста Рот напомнил зрителям о реальной природе бегемотов, показав их череп, который больше напоминает останки монстра или дракона из-за огромных зубов . По его мнению, если бы мы нашли такой череп, не зная о существовании животного, мы бы изобразили его как чудовище из ада, а не как «милое пухлое создание» .

🌲 Лесные тропы и логика пространства 8:25

Для проверки скорости и связности мира Рот использовал изображение волка в лесу. Он отметил, что Genie 3 — самая отзывчивая и быстрая модель из всех существующих аналогов, которые часто казались «вялыми» или забагованными .

Автор подчеркивает логику генерации:

Если персонаж идет по тропе, мир продолжает генерировать дорогу .
Если сойти с тропы в чащу, модель «понимает», что тропинок там быть не должно, и создает густой лес .

Это свидетельствует о том, что у модели есть внутреннее представление о том, как устроен реальный мир, а не просто набор повторяющихся текстур.

🥊 Проблемы синхронизации и «Street Fighter» 10:27

При попытке создать мир на основе файтинга Street Fighter модель столкнулась с трудностями. В сцене присутствовало два персонажа, и поначалу они начали сражаться автономно . Однако при попытке ручного управления движения героев начали странным образом синхронизироваться: оба персонажа двигались в одну сторону одновременно, словно связанные невидимой нитью . Несмотря на это, Рот похвалил модель за сохранение когерентности при наличии двух активных фигур в кадре .

❄️ Особенности генерации: От «лихих 90-х» до аниме-поезда 12:02

Один из тестов был посвящен созданию атмосферы зимнего восточноевропейского города 90-х годов .

Сбои системы: Из-за нагрузки на серверы или ограничений фильтров модель несколько раз выдавала ошибку при попытке создать мир по исходному изображению из Midjourney .
Результат: В итоге ИИ сгенерировал специфическую картину: ребенка в оборванной одежде с «облезлой» собакой . Рот отметил, что золотистое освещение, которое было на исходнике, исчезло, как только персонаж отошел от начальной точки .

В эксперименте с видом от первого лица (вид из глаз) модель показала таинственный коридор. Автор, как опытный геймер, заметил «артефакты»: странные объекты в углах, которые выглядели как секретные предметы из видеоигр . По мнению Рота, это могли быть неправильно интерпретированные моделью источники света (лампы) .

Особого внимания удостоился тест с аниме-девушкой в быстро движущемся поезде .

ИИ успешно отрендерил движение пейзажа за окном .
Рот обнаружил странную особенность: если персонаж стоит на месте и не совершает активных действий, симуляция может длиться значительно дольше стандартных 60 секунд . Автор предполагает, что это связано с меньшими затратами вычислительных мощностей при отсутствии перемещений .

😱 Кошмары Эдварда Мунка и запуск Doom 2 18:52

Интерпретация картины «Крик» оказалась, по словам ведущего, «кошмарной» . Модель создала пугающую 3D-сцену, где перила моста выглядели объемными, но возникла техническая ошибка: лицо персонажа оказалось на затылке . Рот отметил, что этот баг с «головой задом наперед» повторился несколько раз в разных генерациях .

Финальным аккордом стал классический тест для любой вычислительной системы: «Пойдет ли на этом Doom?» .

Результаты проверки Doom 2 в Genie 3:

Модель смогла воспроизвести визуальный стиль игры.
Персонаж может открывать двери .
ИИ имитирует работу переключателей и изменение состояния мира .

Рот был поражен тем, что нейросеть смогла воссоздать логику дверей и рычагов без реального программного кода игры .

🤖 Будущее: Обучение роботов и бесконечные данные 22:37

Подводя итог, Уэс Рот подчеркивает, что Genie 3 — это не просто игрушка для создания коротких видео или демо-версий игр. По заявлениям исследователей Google DeepMind, основная цель таких моделей — создание данных для обучения .

По мнению Рота, это позволит тренировать роботов в бесконечном количестве разнообразных симуляций, прежде чем выпускать их в реальный мир. Технология World Models открывает путь к созданию ИИ, который понимает физику и причинно-следственные связи нашей реальности гораздо глубже, чем нынешние текстовые чат-боты .