Компания Google DeepMind представила Genie 3 — продвинутую нейросетевую модель, способную превращать статичные изображения в интерактивные трехмерные миры. Ведущий канала Wes Roth протестировал возможности инструмента, который теперь доступен пользователям с подпиской Google AI Ultra. По мнению автора, технология совершает качественный скачок в создании симуляций: от простых анимаций до полноценных пространств, где можно управлять персонажем, взаимодействовать с объектами и исследовать окружение.
🌍 Google DeepMind: От статических картинок к живым мирам 1:36
Google DeepMind выпустила Genie 3 — модель «генератора миров» (world model), о которой в индустрии ИИ говорили уже давно . В отличие от обычных видеогенераторов, Genie 3 создает не просто ролик, а среду, в которой пользователь может перемещаться с помощью клавиш WASD и стрелок.
Основные технические возможности управления:
- Перемещение персонажа вперед, назад и в стороны (WASD).
- Обзор на 360 градусов с помощью стрелок на клавиатуре .
- Прыжки (клавиша пробел), позволяющие преодолевать препятствия .
На данный момент доступ к инструменту имеют владельцы подписки Google AI Ultra. По словам Уэса Рота, хотя система иногда испытывает проблемы с пропускной способностью из-за наплыва пользователей в первый день запуска, она демонстрирует впечатляющий уровень детализации .
🐱 Физика, свет и «кошачий» реализм 2:03
В первом тесте Рота использовалось изображение черного кота в фэнтезийной таверне. Автор отмечает, что ИИ не просто «оживил» кота, но и правильно вписал его в пространство: персонаж не проваливается сквозь столы и реалистично взаимодействует с предметами .
- Взаимодействие с окружением: Кот в симуляции может сбивать предметы с полок, что Рот назвал «высшей степенью реализма» для поведения кошачьих .
- Освещение: В другом примере с девушкой в темной квартире ИИ продемонстрировал мастерство рендеринга света . По мнению ведущего, свет, падающий из окна в пасмурный день, выглядит идеально: он динамически меняется на персонаже при поворотах и движении .
Важно понимать, что это не работа игрового движка в привычном понимании. Весь мир, включая освещение и физические столкновения, генерируется нейросетью «на лету» на основе одной фотографии и текстового описания .
🦛 Массивность и поведение в дикой природе 5:48
Рот провел эксперимент с бегемотом в саванне, чтобы проверить, как модель передает ощущение массы и сложные взаимодействия .
Интересные наблюдения автора:
- Ощущение веса: Управление бегемотом ощущалось «тяжелым» по сравнению с легким котом. Рот утверждает, что при движении чувствовалась инерция и массивность животного .
- Сложные среды: При выходе из воды на грязный берег модель изменила характер движения — персонаж начал реалистично буксовать и «тонуть» в грязи .
- Социальное взаимодействие: Когда бегемот приблизился к стаду антилоп, он начал буквально расталкивать их, и другие животные реагировали на его присутствие .
В контексте этого теста Рот напомнил зрителям о реальной природе бегемотов, показав их череп, который больше напоминает останки монстра или дракона из-за огромных зубов . По его мнению, если бы мы нашли такой череп, не зная о существовании животного, мы бы изобразили его как чудовище из ада, а не как «милое пухлое создание» .
🌲 Лесные тропы и логика пространства 8:25
Для проверки скорости и связности мира Рот использовал изображение волка в лесу. Он отметил, что Genie 3 — самая отзывчивая и быстрая модель из всех существующих аналогов, которые часто казались «вялыми» или забагованными .
Автор подчеркивает логику генерации:
- Если персонаж идет по тропе, мир продолжает генерировать дорогу .
- Если сойти с тропы в чащу, модель «понимает», что тропинок там быть не должно, и создает густой лес .
Это свидетельствует о том, что у модели есть внутреннее представление о том, как устроен реальный мир, а не просто набор повторяющихся текстур.
🥊 Проблемы синхронизации и «Street Fighter» 10:27
При попытке создать мир на основе файтинга Street Fighter модель столкнулась с трудностями. В сцене присутствовало два персонажа, и поначалу они начали сражаться автономно . Однако при попытке ручного управления движения героев начали странным образом синхронизироваться: оба персонажа двигались в одну сторону одновременно, словно связанные невидимой нитью . Несмотря на это, Рот похвалил модель за сохранение когерентности при наличии двух активных фигур в кадре .
❄️ Особенности генерации: От «лихих 90-х» до аниме-поезда 12:02
Один из тестов был посвящен созданию атмосферы зимнего восточноевропейского города 90-х годов .
- Сбои системы: Из-за нагрузки на серверы или ограничений фильтров модель несколько раз выдавала ошибку при попытке создать мир по исходному изображению из Midjourney .
- Результат: В итоге ИИ сгенерировал специфическую картину: ребенка в оборванной одежде с «облезлой» собакой . Рот отметил, что золотистое освещение, которое было на исходнике, исчезло, как только персонаж отошел от начальной точки .
В эксперименте с видом от первого лица (вид из глаз) модель показала таинственный коридор. Автор, как опытный геймер, заметил «артефакты»: странные объекты в углах, которые выглядели как секретные предметы из видеоигр . По мнению Рота, это могли быть неправильно интерпретированные моделью источники света (лампы) .
Особого внимания удостоился тест с аниме-девушкой в быстро движущемся поезде .
- ИИ успешно отрендерил движение пейзажа за окном .
- Рот обнаружил странную особенность: если персонаж стоит на месте и не совершает активных действий, симуляция может длиться значительно дольше стандартных 60 секунд . Автор предполагает, что это связано с меньшими затратами вычислительных мощностей при отсутствии перемещений .
😱 Кошмары Эдварда Мунка и запуск Doom 2 18:52
Интерпретация картины «Крик» оказалась, по словам ведущего, «кошмарной» . Модель создала пугающую 3D-сцену, где перила моста выглядели объемными, но возникла техническая ошибка: лицо персонажа оказалось на затылке . Рот отметил, что этот баг с «головой задом наперед» повторился несколько раз в разных генерациях .
Финальным аккордом стал классический тест для любой вычислительной системы: «Пойдет ли на этом Doom?» .
Результаты проверки Doom 2 в Genie 3:
- Модель смогла воспроизвести визуальный стиль игры.
- Персонаж может открывать двери .
- ИИ имитирует работу переключателей и изменение состояния мира .
Рот был поражен тем, что нейросеть смогла воссоздать логику дверей и рычагов без реального программного кода игры .
🤖 Будущее: Обучение роботов и бесконечные данные 22:37
Подводя итог, Уэс Рот подчеркивает, что Genie 3 — это не просто игрушка для создания коротких видео или демо-версий игр. По заявлениям исследователей Google DeepMind, основная цель таких моделей — создание данных для обучения .
По мнению Рота, это позволит тренировать роботов в бесконечном количестве разнообразных симуляций, прежде чем выпускать их в реальный мир. Технология World Models открывает путь к созданию ИИ, который понимает физику и причинно-следственные связи нашей реальности гораздо глубже, чем нынешние текстовые чат-боты .