Google DeepMind представила Genie 3: как ИИ создает интерактивные миры в реальном времени

a16z 10,2 тыс. 42 мин 5 мин 16.08.2025
Главное

Исследователи из Google DeepMind, Шолто Дуглас и Джек Паркер-Холдер, представили Genie 3 — прорывную модель ИИ, способную генерировать интерактивные трехмерные миры в реальном времени на основе текстовых описаний. В ходе беседы с Марком из a16z (Andreessen Horowitz) авторы технологии обсудили, как концепция «моделей мира» (world models) меняет подход к созданию видеоигр, обучению роботов и нашему пониманию цифровой реальности.

🌍 От видео к реальности: рождение Genie 3 0:00

Genie 3 представляет собой значительный качественный скачок по сравнению с предыдущими итерациями проекта. Если раньше генерация видео была линейным процессом (одна подсказка — 15 секунд ролика), то теперь пользователь получает возможность буквально входить внутрь созданного окружения .

По словам исследователей, работа над Genie 3 стала кульминацией нескольких направлений внутри Google DeepMind:

Джек Паркер-Холдер отметил, что команда поставила перед собой амбициозную цель объединить реализм VEO с интерактивностью игровых движков. По его признанию, сроки реализации проекта удивили самих разработчиков: весь цикл от постановки целей до работающего прототипа занял около семи месяцев . Шолто Дуглас добавил, что ключевым моментом стало достижение «магической» скорости работы в реальном времени, когда модель мгновенно реагирует на нажатия клавиш пользователем .

🧠 Пространственная память: секрет консистентности 8:28

Одной из самых обсуждаемых функций Genie 3 стала так называемая «пространственная память» (spatial memory). В блоге проекта был продемонстрирован пример: персонаж рисует краской на стене, отходит в другую часть локации, а когда возвращается — рисунок остается на том же месте .

Технические нюансы реализации памяти:

Джек Паркер-Холдер утверждает, что пространственная память была заложена в проект как стратегическая цель, но её эффективность в итоговой модели все равно оказалась сюрпризом даже для создателей . Шолто Дуглас подчеркнул, что это критически важно для генерализации: модель должна «понимать» мир без жестких предустановок, чтобы сохранять гибкость .

🌊 Физика и «здравый смысл» нейросети 14:31

При масштабировании Genie 3 исследователи заметили появление эмерджентных свойств — способностей, которым модель не обучали специально. Например, она начала демонстрировать понимание сложных физических процессов.

Примеры физического взаимодействия в Genie 3:

Исследователи признают наличие «напряжения» между следованием текстовому промпту и соблюдением законов логики мира. Шолто Дуглас пояснил: если пользователь попросит персонажа прыгать по лужам в шлепках, модели будет сложнее сгенерировать это убедительно, так как это маловероятное событие с точки зрения обучающих данных . Однако именно способность заходить в такие «зоны низкой вероятности» делает ИИ-миры захватывающими .

🎨 Текстовое управление и интеграция с VEO 18:28

Переход от управления картинками-подсказками к чистому тексту стал важным этапом развития Genie 3. Это позволило добиться беспрецедентного уровня контроля над деталями мира .

Джек Паркер-Холдер привел личный пример: он попросил модель сгенерировать видео со своей собакой, описав её текстом. Результат был настолько точным, что люди не поверили, что в основе не лежала реальная фотография . Такой прогресс стал возможен благодаря тесному сотрудничеству с командой проекта VEO внутри Google DeepMind. Авторы подчеркивают, что нахождение в структуре одной компании позволяет им «турбочарджить» исследования, используя наработки экспертов из смежных областей .

Несмотря на сходство, Шолто Дуглас настаивает на различии между VEO и Genie 3:

  1. VEO ориентирована на кинематографическое качество и видеопроизводство .
  2. Genie 3 — это исследовательское превью «модели мира», где приоритетом является навигация и интерактивность .

🤖 Робототехника и концепция SIMA 32:53

Одним из самых перспективных применений Genie 3 является Embodied AI (воплощенный ИИ) и робототехника. Джек Паркер-Холдер объяснил, что Genie 3 — это не «агент» (тот, кто действует), а «среда» (то, в чем действуют) .

Роль моделей мира в обучении роботов:

Джек Паркер-Холдер мечтает о времени, когда роботы смогут выполнять сложные бытовые задачи, например, выгуливать собаку в дождливом Лондоне, учитывая все нюансы окружения: от испуганных прохожих до летящих мячей .

🔮 Будущее: терапия и виртуальные миры 31:09

Обсуждая долгосрочные перспективы, исследователи затронули тему психологической помощи. Шолто Дуглас (со ссылкой на идею своей супруги) предположил, что фотореалистичные симуляции могут помочь людям преодолевать фобии, например, страх публичных выступлений или арахнофобию, позволяя безопасно проживать пугающие сценарии в управляемой среде .

Что касается сроков публичного доступа, авторы сохраняют осторожность. Конкретной даты выхода Genie 3 как продукта пока нет, так как это «исследовательское превью» . Исследователи полагают, что в ближайшие годы нас ждет экспоненциальный рост возможностей таких моделей, хотя до полной и абсолютно точной симуляции реальности еще предстоит пройти большой путь .

В финале беседы, на вопрос о том, живем ли мы сами в симуляции, Шолто Дуглас ответил с технической точки зрения: если наша Вселенная и является симуляцией, то она, скорее всего, аналоговая, а не цифровая, и работает на аппаратном обеспечении, которое намного превосходит современные TPU .

💬 Цитаты

«Магия этих моделей в том, что они могут перенести вас в места, которые в реальности крайне маловероятны.»

Шолто Дуглас 18:00

«Genie 3 — это не агент, а среда. Это универсальный симулятор опыта для будущих ИИ.»

Джек Паркер-Холдер 33:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
World Model (Модель мира)
Нейросеть, способная предсказывать будущее состояние среды и имитировать её законы.
Spatial Memory (Пространственная память)
Способность модели сохранять расположение и вид объектов, когда камера отворачивается от них.
Embodied AI (Воплощенный ИИ)
Искусственный интеллект, имеющий физическое или виртуальное «тело» для взаимодействия с миром.
Sim-to-Real gap
Разрыв между эффективностью алгоритма в симуляции и его работой в реальной физической среде.
📊 Цифры
🗓 Хронология
  1. 2016 Победа AlphaGo над человеком в игре го.
  2. 2022 Начало работы над первым проектом Genie.
  3. Декабрь 2023 Выпуск видеомодели VEO и Genie 2.
  4. 2024 Анонс Genie 3 как интегрированной модели интерактивных миров.
⚖️ Другая сторона
Искусственный интеллект Google DeepMind Genie 3 Sholto Douglas Jack Parker-Holder World Models