Технологический мир замер в ожидании нового прорыва от Google DeepMind. Поводом для бурных дискуссий стал загадочный обмен репликами в социальных сетях между известными инсайдерами и главой компании Демисом Хассабисом, намекающий на превращение видеогенератора VEO 3 в полноценный движок для создания интерактивных миров. Популярный ИИ-обозреватель Уэс Рот анализирует, почему видеоигры стали главным полигоном для обучения сильного искусственного интеллекта (AGI) и какую роль в этом играют «модели мира».
🎮 Загадочный намек Демиса Хассабиса и будущее VEO 3 0:00
Все началось с публикации известного в ИИ-сообществе инсайдера под псевдонимом Jimmy Apples, который выразил восторг по поводу возможностей новой модели VEO 3 от Google . Он в шутку (или всерьез) попросил дать ему возможность «поиграть» в видео, созданные этой нейросетью. Когда к обсуждению подключился Логан Килпатрик из команды Google с вопросом об интерактивных моделях мира, в дискуссию неожиданно вмешался сам Демис Хассабис .
Его краткий ответ — «Now, wouldn't that be something?» («Разве это не было бы чем-то особенным?») — Уэс Рот интерпретирует как прямую отсылку к фильму «Трон: Наследие» . По мнению автора канала, это не просто вежливая реплика, а осознанный намек на то, что Google DeepMind работает над технологией, позволяющей превращать сгенерированное видео в игровое пространство в реальном времени.
Килпатрик, занимающий пост руководителя по продукту в Google AI Studio, отреагировал на это эмодзи с «застегнутым на замок ртом» . Это, по словам Рота, подтверждает, что компания готовит некий секретный проект, объединяющий генеративное видео и интерактивность.
🏗️ Unreal Engine как фундамент для обучения нейросетей 0:39
Уэс Рот отмечает, что использование игровых движков для обучения ИИ уже давно стало «секретом Полишинеля» в индустрии . Игровые миры предоставляют идеальную среду для получения высококачественных синтетических данных.
В качестве примеров использования игровых технологий автор приводит следующие факты:
- Tesla: По слухам, компания Илона Маска использовала Unreal Engine для симуляции дорожных условий, чтобы обучать нейросети автопилота .
- OpenAI Sora: Существуют предположения, что при обучении модели Sora использовались визуальные данные, сгенерированные в Unreal Engine, что объясняет характерную «игровую» эстетику некоторых видео .
- Синтетические данные: Игровые движки позволяют создавать бесконечное количество обучающих сценариев, которые сложно или дорого получить в реальном мире .
🕹️ Проекты DeepMind: От Doom до «всеядных» агентов 1:45
Google DeepMind уже имеет в своем портфолио ряд проектов, которые стирают грань между генерацией контента и программированием игр. Уэс Рот подробно останавливается на трех ключевых разработках:
Genie 2 (Generative Interactive Environments)
Эта модель способна создавать бесконечное разнообразие играбельных 3D-миров на основе всего одного изображения или текстового промпта . Рот подчеркивает принципиальное отличие: это не традиционная игра, написанная кодом, а мир, генерируемый нейросетью в реальном времени. Пользователь может нажимать кнопки управления (W, A, S, D), и нейросеть «предсказывает» следующий кадр, создавая иллюзию полноценного геймплея .
GameEngine (GameNGen)
Проект, имитирующий классическую игру Doom . Автор описывает это как «сон нейросети»: в системе нет ни одной строчки программного кода самой игры. Модель просто знает, как должен выглядеть Doom, и когда игрок нажимает «огонь», она имитирует визуальные последствия этого действия . По данным тестов, игроки практически не могли отличить симуляцию от оригинала на коротких временных отрезках, хотя при длительной игре возникают галлюцинации и артефакты .
SIMA (Scalable Instructable Multiworld Agent)
Это универсальный ИИ-агент, который учится играть в самые разные игры — от Satisfactory и No Man's Sky до Goat Simulator 3 . Ключевая особенность SIMA заключается в том, что он взаимодействует с игрой как человек: через визуальное восприятие экрана и эмуляцию нажатий клавиш, не имея доступа к программному коду или памяти игры . Он понимает вербальные команды, например, «иди и добудь дерево» в Minecraft, и выполняет их, основываясь на общем понимании механик .
📉 Демократизация разработки и конец эпохи кода? 7:56
Почему Google тратит столько ресурсов на игры? По мнению Уэса Рота, конечная цель выходит далеко за рамки индустрии развлечений. Однако первым очевидным последствием станет революция в разработке игр.
Преимущества нейросетевых игровых движков по версии Рота:
- Радикальное снижение стоимости: Вместо найма сотен программистов для написания скриптов под каждое событие, разработчик может использовать нейросеть, которая «воображает» мир на лету .
- Доступность для непрофессионалов: Люди без навыков программирования смогут создавать игры, просто описывая их словами или делая наброски, подобно тому, как сейчас создаются изображения в Midjourney .
- Бесконечные миры: Возможность генерировать уникальный контент для каждого игрока в реальном времени, создавая по-настоящему живые экосистемы .
Автор напоминает о закрытом проекте Google Stadia, предполагая, что технологии облачного гейминга могут возродиться на базе генеративного ИИ .
🧠 Путь к AGI через симуляции и робототехнику 10:31
Основная ценность игровых миров для Google DeepMind заключается в возможности обучать ИИ-агентов в безопасной и контролируемой среде. Уэс Рот ссылается на мнение доктора Джима Фана из Nvidia, который считает, что будущее за «универсальным агентом», способным управлять любым роботом .
По мнению Рота, если обучить модель действовать в миллионах симуляций с разной физикой (от полетов до подводных погружений), то выход в реальный мир станет для нее «просто еще одной игрой» .
Интересным примером использования игровых данных в науке автор называет случай из World of Warcraft, когда внутриигровая эпидемия (баг «Порченая кровь») изучалась вирусологами для моделирования распространения реальных болезней . Также упоминается исследование Стэнфордского университета Social Simulacra, где в виртуальной деревне симулировалось распространение слухов и социальной информации . По словам Рота, правительства и корпорации в будущем смогут использовать такие «модели мира» для тестирования экономических реформ или политических изменений перед их внедрением в реальности .
🤖 Подход Джона Кармака: Роботы за игровыми приставками 14:05
В контексте гонки за AGI Уэс Рот упоминает легендарного создателя Doom Джона Кармака и его новую компанию Keen Technologies. Кармак придерживается иного, более «материального» подхода.
Как описывает Рот, Кармак пытается обучить AGI, заставляя физических роботов играть в видеоигры . На видео из лаборатории Кармака видно роботизированную камеру, направленную на экран, и механический манипулятор, нажимающий кнопки на контроллере Atari . Цель этого эксперимента — заставить систему обобщать опыт: если робот научился играть в Ms. Pac-Man, это должно помочь ему быстрее освоить Tetris или Space Invaders.
Автор замечает, что самые светлые умы индустрии — от Демиса Хассабиса до Джона Кармака — сошлись в одной точке: путь к искусственному интеллекту лежит через виртуальные 3D-миры .
🌌 Теория симуляции: Живем ли мы в нейросети? 15:37
В финале статьи Уэс Рот переходит к философским размышлениям. По его словам, по мере развития технологий для цивилизации становится критически важным запускать масштабные симуляции .
Он предполагает, что в ближайшие десятилетия мы увидим миры, созданные нейросетями, где виртуальные жители будут чувствовать себя реальными личностями . Автор задает риторический вопрос: когда мы построим такую симуляцию, будет ли она первой в истории или лишь очередным звеном в бесконечной цепочке вложенных друг в друга реальностей?