Уэс Рот о секретах Google: станет ли VEO 3 игровым движком для обучения AGI?

Технологический мир замер в ожидании нового прорыва от Google DeepMind. Поводом для бурных дискуссий стал загадочный обмен репликами в социальных сетях между известными инсайдерами и главой компании Демисом Хассабисом, намекающий на превращение видеогенератора VEO 3 в полноценный движок для создания интерактивных миров. Популярный ИИ-обозреватель Уэс Рот анализирует, почему видеоигры стали главным полигоном для обучения сильного искусственного интеллекта (AGI) и какую роль в этом играют «модели мира».

🎮 Загадочный намек Демиса Хассабиса и будущее VEO 3 0:00

Все началось с публикации известного в ИИ-сообществе инсайдера под псевдонимом Jimmy Apples, который выразил восторг по поводу возможностей новой модели VEO 3 от Google . Он в шутку (или всерьез) попросил дать ему возможность «поиграть» в видео, созданные этой нейросетью. Когда к обсуждению подключился Логан Килпатрик из команды Google с вопросом об интерактивных моделях мира, в дискуссию неожиданно вмешался сам Демис Хассабис .

Его краткий ответ — «Now, wouldn't that be something?» («Разве это не было бы чем-то особенным?») — Уэс Рот интерпретирует как прямую отсылку к фильму «Трон: Наследие» . По мнению автора канала, это не просто вежливая реплика, а осознанный намек на то, что Google DeepMind работает над технологией, позволяющей превращать сгенерированное видео в игровое пространство в реальном времени.

Килпатрик, занимающий пост руководителя по продукту в Google AI Studio, отреагировал на это эмодзи с «застегнутым на замок ртом» . Это, по словам Рота, подтверждает, что компания готовит некий секретный проект, объединяющий генеративное видео и интерактивность.

🏗️ Unreal Engine как фундамент для обучения нейросетей 0:39

Уэс Рот отмечает, что использование игровых движков для обучения ИИ уже давно стало «секретом Полишинеля» в индустрии . Игровые миры предоставляют идеальную среду для получения высококачественных синтетических данных.

В качестве примеров использования игровых технологий автор приводит следующие факты:

Tesla: По слухам, компания Илона Маска использовала Unreal Engine для симуляции дорожных условий, чтобы обучать нейросети автопилота .
OpenAI Sora: Существуют предположения, что при обучении модели Sora использовались визуальные данные, сгенерированные в Unreal Engine, что объясняет характерную «игровую» эстетику некоторых видео .
Синтетические данные: Игровые движки позволяют создавать бесконечное количество обучающих сценариев, которые сложно или дорого получить в реальном мире .

🕹️ Проекты DeepMind: От Doom до «всеядных» агентов 1:45

Google DeepMind уже имеет в своем портфолио ряд проектов, которые стирают грань между генерацией контента и программированием игр. Уэс Рот подробно останавливается на трех ключевых разработках:

Genie 2 (Generative Interactive Environments)

Эта модель способна создавать бесконечное разнообразие играбельных 3D-миров на основе всего одного изображения или текстового промпта . Рот подчеркивает принципиальное отличие: это не традиционная игра, написанная кодом, а мир, генерируемый нейросетью в реальном времени. Пользователь может нажимать кнопки управления (W, A, S, D), и нейросеть «предсказывает» следующий кадр, создавая иллюзию полноценного геймплея .

GameEngine (GameNGen)

Проект, имитирующий классическую игру Doom . Автор описывает это как «сон нейросети»: в системе нет ни одной строчки программного кода самой игры. Модель просто знает, как должен выглядеть Doom, и когда игрок нажимает «огонь», она имитирует визуальные последствия этого действия . По данным тестов, игроки практически не могли отличить симуляцию от оригинала на коротких временных отрезках, хотя при длительной игре возникают галлюцинации и артефакты .

SIMA (Scalable Instructable Multiworld Agent)

Это универсальный ИИ-агент, который учится играть в самые разные игры — от Satisfactory и No Man's Sky до Goat Simulator 3 . Ключевая особенность SIMA заключается в том, что он взаимодействует с игрой как человек: через визуальное восприятие экрана и эмуляцию нажатий клавиш, не имея доступа к программному коду или памяти игры . Он понимает вербальные команды, например, «иди и добудь дерево» в Minecraft, и выполняет их, основываясь на общем понимании механик .

📉 Демократизация разработки и конец эпохи кода? 7:56

Почему Google тратит столько ресурсов на игры? По мнению Уэса Рота, конечная цель выходит далеко за рамки индустрии развлечений. Однако первым очевидным последствием станет революция в разработке игр.

Преимущества нейросетевых игровых движков по версии Рота:

Радикальное снижение стоимости: Вместо найма сотен программистов для написания скриптов под каждое событие, разработчик может использовать нейросеть, которая «воображает» мир на лету .
Доступность для непрофессионалов: Люди без навыков программирования смогут создавать игры, просто описывая их словами или делая наброски, подобно тому, как сейчас создаются изображения в Midjourney .
Бесконечные миры: Возможность генерировать уникальный контент для каждого игрока в реальном времени, создавая по-настоящему живые экосистемы .

Автор напоминает о закрытом проекте Google Stadia, предполагая, что технологии облачного гейминга могут возродиться на базе генеративного ИИ .

🧠 Путь к AGI через симуляции и робототехнику 10:31

Основная ценность игровых миров для Google DeepMind заключается в возможности обучать ИИ-агентов в безопасной и контролируемой среде. Уэс Рот ссылается на мнение доктора Джима Фана из Nvidia, который считает, что будущее за «универсальным агентом», способным управлять любым роботом .

По мнению Рота, если обучить модель действовать в миллионах симуляций с разной физикой (от полетов до подводных погружений), то выход в реальный мир станет для нее «просто еще одной игрой» .

Интересным примером использования игровых данных в науке автор называет случай из World of Warcraft, когда внутриигровая эпидемия (баг «Порченая кровь») изучалась вирусологами для моделирования распространения реальных болезней . Также упоминается исследование Стэнфордского университета Social Simulacra, где в виртуальной деревне симулировалось распространение слухов и социальной информации . По словам Рота, правительства и корпорации в будущем смогут использовать такие «модели мира» для тестирования экономических реформ или политических изменений перед их внедрением в реальности .

🤖 Подход Джона Кармака: Роботы за игровыми приставками 14:05

В контексте гонки за AGI Уэс Рот упоминает легендарного создателя Doom Джона Кармака и его новую компанию Keen Technologies. Кармак придерживается иного, более «материального» подхода.

Как описывает Рот, Кармак пытается обучить AGI, заставляя физических роботов играть в видеоигры . На видео из лаборатории Кармака видно роботизированную камеру, направленную на экран, и механический манипулятор, нажимающий кнопки на контроллере Atari . Цель этого эксперимента — заставить систему обобщать опыт: если робот научился играть в Ms. Pac-Man, это должно помочь ему быстрее освоить Tetris или Space Invaders.

Автор замечает, что самые светлые умы индустрии — от Демиса Хассабиса до Джона Кармака — сошлись в одной точке: путь к искусственному интеллекту лежит через виртуальные 3D-миры .

🌌 Теория симуляции: Живем ли мы в нейросети? 15:37

В финале статьи Уэс Рот переходит к философским размышлениям. По его словам, по мере развития технологий для цивилизации становится критически важным запускать масштабные симуляции .

Он предполагает, что в ближайшие десятилетия мы увидим миры, созданные нейросетями, где виртуальные жители будут чувствовать себя реальными личностями . Автор задает риторический вопрос: когда мы построим такую симуляцию, будет ли она первой в истории или лишь очередным звеном в бесконечной цепочке вложенных друг в друга реальностей?