Google DeepMind представила Genie 3: как ИИ создает интерактивные миры в реальном времени

Исследователи из Google DeepMind, Шолто Дуглас и Джек Паркер-Холдер, представили Genie 3 — прорывную модель ИИ, способную генерировать интерактивные трехмерные миры в реальном времени на основе текстовых описаний. В ходе беседы с Марком из a16z (Andreessen Horowitz) авторы технологии обсудили, как концепция «моделей мира» (world models) меняет подход к созданию видеоигр, обучению роботов и нашему пониманию цифровой реальности.

🌍 От видео к реальности: рождение Genie 3 0:00

Genie 3 представляет собой значительный качественный скачок по сравнению с предыдущими итерациями проекта. Если раньше генерация видео была линейным процессом (одна подсказка — 15 секунд ролика), то теперь пользователь получает возможность буквально входить внутрь созданного окружения .

По словам исследователей, работа над Genie 3 стала кульминацией нескольких направлений внутри Google DeepMind:

Genie 2: Предыдущая версия, умевшая создавать 3D-среды, но обладавшая низким качеством изображения .
VEO: Передовая видеомодель Google, продемонстрировавшая высочайший уровень фотореализма в декабре прошлого года .
GameNGen: Проект по симуляции игры Doom с помощью нейросетей, доказавший возможность работы сложных игровых движков на базе ИИ .

Джек Паркер-Холдер отметил, что команда поставила перед собой амбициозную цель объединить реализм VEO с интерактивностью игровых движков. По его признанию, сроки реализации проекта удивили самих разработчиков: весь цикл от постановки целей до работающего прототипа занял около семи месяцев . Шолто Дуглас добавил, что ключевым моментом стало достижение «магической» скорости работы в реальном времени, когда модель мгновенно реагирует на нажатия клавиш пользователем .

🧠 Пространственная память: секрет консистентности 8:28

Одной из самых обсуждаемых функций Genie 3 стала так называемая «пространственная память» (spatial memory). В блоге проекта был продемонстрирован пример: персонаж рисует краской на стене, отходит в другую часть локации, а когда возвращается — рисунок остается на том же месте .

Технические нюансы реализации памяти:

Отказ от явных 3D-представлений: В отличие от методов вроде NeRF или Gaussian Splatting, Genie 3 не строит математическую модель 3D-сцены заранее .
Покадровая генерация: Модель генерирует мир кадр за кадром, опираясь на внутреннее представление о пространстве .
Лимиты: На данный момент «глубина» памяти ограничена примерно одной минутой из-за вычислительных компромиссов, необходимых для работы в реальном времени .

Джек Паркер-Холдер утверждает, что пространственная память была заложена в проект как стратегическая цель, но её эффективность в итоговой модели все равно оказалась сюрпризом даже для создателей . Шолто Дуглас подчеркнул, что это критически важно для генерализации: модель должна «понимать» мир без жестких предустановок, чтобы сохранять гибкость .

🌊 Физика и «здравый смысл» нейросети 14:31

При масштабировании Genie 3 исследователи заметили появление эмерджентных свойств — способностей, которым модель не обучали специально. Например, она начала демонстрировать понимание сложных физических процессов.

Примеры физического взаимодействия в Genie 3:

Симуляция воды: Персонажи не просто ходят по воде, а начинают плыть или разбрызгивать её в зависимости от глубины .
Рельеф: Модель учитывает трение и гравитацию — лыжник едет быстро вниз по склону, но значительно замедляется или останавливается при попытке ехать вверх .
Инференция действий: Если персонаж подходит к двери, модель «догадывается», что её нужно открыть, исходя из логики окружения .

Исследователи признают наличие «напряжения» между следованием текстовому промпту и соблюдением законов логики мира. Шолто Дуглас пояснил: если пользователь попросит персонажа прыгать по лужам в шлепках, модели будет сложнее сгенерировать это убедительно, так как это маловероятное событие с точки зрения обучающих данных . Однако именно способность заходить в такие «зоны низкой вероятности» делает ИИ-миры захватывающими .

🎨 Текстовое управление и интеграция с VEO 18:28

Переход от управления картинками-подсказками к чистому тексту стал важным этапом развития Genie 3. Это позволило добиться беспрецедентного уровня контроля над деталями мира .

Джек Паркер-Холдер привел личный пример: он попросил модель сгенерировать видео со своей собакой, описав её текстом. Результат был настолько точным, что люди не поверили, что в основе не лежала реальная фотография . Такой прогресс стал возможен благодаря тесному сотрудничеству с командой проекта VEO внутри Google DeepMind. Авторы подчеркивают, что нахождение в структуре одной компании позволяет им «турбочарджить» исследования, используя наработки экспертов из смежных областей .

Несмотря на сходство, Шолто Дуглас настаивает на различии между VEO и Genie 3:

VEO ориентирована на кинематографическое качество и видеопроизводство .
Genie 3 — это исследовательское превью «модели мира», где приоритетом является навигация и интерактивность .

🤖 Робототехника и концепция SIMA 32:53

Одним из самых перспективных применений Genie 3 является Embodied AI (воплощенный ИИ) и робототехника. Джек Паркер-Холдер объяснил, что Genie 3 — это не «агент» (тот, кто действует), а «среда» (то, в чем действуют) .

Роль моделей мира в обучении роботов:

Безопасность: Обучать робота навигации или взаимодействию с объектами в симуляции гораздо безопаснее и дешевле, чем в реальном мире .
Преодоление Sim-to-Real gap: Традиционные симуляторы (например, MuJoCo) выглядят искусственно. Genie 3 позволяет создавать фотореалистичные симуляции, максимально приближенные к реальности .
Композитность (SIMA): Проект SIMA (Generalist AI Agent) может использовать Genie в качестве тренажера. Агент просит Genie создать среду, выполняет в ней задачи и учится на опыте, подобно тому как AlphaGo училась, играя сама с собой .

Джек Паркер-Холдер мечтает о времени, когда роботы смогут выполнять сложные бытовые задачи, например, выгуливать собаку в дождливом Лондоне, учитывая все нюансы окружения: от испуганных прохожих до летящих мячей .

🔮 Будущее: терапия и виртуальные миры 31:09

Обсуждая долгосрочные перспективы, исследователи затронули тему психологической помощи. Шолто Дуглас (со ссылкой на идею своей супруги) предположил, что фотореалистичные симуляции могут помочь людям преодолевать фобии, например, страх публичных выступлений или арахнофобию, позволяя безопасно проживать пугающие сценарии в управляемой среде .

Что касается сроков публичного доступа, авторы сохраняют осторожность. Конкретной даты выхода Genie 3 как продукта пока нет, так как это «исследовательское превью» . Исследователи полагают, что в ближайшие годы нас ждет экспоненциальный рост возможностей таких моделей, хотя до полной и абсолютно точной симуляции реальности еще предстоит пройти большой путь .

В финале беседы, на вопрос о том, живем ли мы сами в симуляции, Шолто Дуглас ответил с технической точки зрения: если наша Вселенная и является симуляцией, то она, скорее всего, аналоговая, а не цифровая, и работает на аппаратном обеспечении, которое намного превосходит современные TPU .