Как нейросеть научилась «грезить» игрой Doom без единой строчки программного кода

В марте 2024 года глава Nvidia Дженсен Хуанг предсказал, что игры, полностью генерируемые искусственным интеллектом в реальном времени, появятся в течение десяти лет. Однако компания Google DeepMind представила технологию, которая доказывает: это будущее уже наступило, и культовый шутер Doom теперь может существовать без традиционного программного кода.

🕹️ Смерть игрового движка: Doom как нейросеть 0:00

В индустрии видеоигр произошло событие, которое Вес Рот называет «концом эпохи кода» . Google DeepMind представила модель, способную симулировать игру Doom целиком с помощью нейронной сети. Это не просто видеозапись или скрипт; это диффузионная модель, которая буквально «выгрезивает» (dreams up) игровой мир, врагов и действия игрока попиксельно в режиме реального времени .

Ключевые отличия нового подхода:

Отсутствие кода: В этой версии Doom нет логических условий, написанных программистом.
Нейронная симуляция: Вместо вычислений движка происходит предсказание следующего кадра на основе действий игрока.
Реальное время: Модель реагирует на ввод (нажатие клавиш) мгновенно, создавая связный визуальный ряд.

По мнению Веса Рота, значимость этого прорыва трудно переоценить, так как Doom исторически является лакмусовой бумажкой для любых новых технологий . Программисты запускали эту игру на кассовых аппаратах, микроволновках и даже тестах на беременность, но запуск игры внутри «цифрового мозга» нейросети — это принципиально иной уровень .

🧠 Наследие Джона Кармака и «галлюцинации» Пи 1:37

Оригинальный Doom, выпущенный в 1993 году, опирался на гений Джона Кармака, который вручную написал революционный для своего времени 3D-движок . Вес Рот напоминает, что Кармак создавал этот код в эпоху до интернета, полагаясь на собственную память и математические навыки.

Интересный исторический факт:

В исходном коде Doom была допущена ошибка в числе Пи: вместо правильной 10-й цифры Кармак вписал неверное значение .
Когда ему указали на это спустя годы, Кармак признал, что просто неверно вспомнил цифру .

Автор видео подчеркивает фундаментальную разницу: любая предыдущая игра была набором строгих инструкций, написанных человеком . Если в игре происходило случайное событие, оно было запрограммировано. В новой модели от Google разработчика как такового нет — есть только нейронные сети, обучающиеся на данных .

🎨 Как ИИ учится «рисовать» игру: Диффузия и шум 4:15

В основе новой технологии лежит архитектура Stable Diffusion . Вес Рот объясняет принцип работы диффузионных моделей через аналогию с шумом на старом телевизоре.

Процесс обучения выглядит следующим образом:

Нейросети показывают изображение (например, кота).
К изображению постепенно добавляют визуальный шум, пока оно не превратится в хаос из пикселей .
Модель запоминает этот процесс и учится запускать его в обратном порядке: превращать случайный шум в четкое изображение .

По признанию самого Рота, интуитивно понять, почему это работает, крайне сложно — документация по таким моделям представляет собой «стены из математических формул» . Он сравнивает это с попыткой восстановить работающий iPhone после того, как вы посмотрели тысячи часов видео, где телефоны измельчают в блендере . Тем не менее, метод работает: вместо фотографий котов модель Google DeepMind генерирует кадры игрового процесса Doom .

🤖 Обучение через «травму»: ИИ-агенты и VizDoom 7:19

Для обучения модели требовались огромные массивы данных — записи миллионов часов игры в Doom. Чтобы не нанимать людей для этой задачи, исследователи Google создали специальных ИИ-агентов на базе архитектуры VizDoom .

Агенты обучались с помощью обучения с подкреплением (Reinforcement Learning, RL). Вес Рот описывает это как систему «кнута и пряника»:

Положительное подкрепление: Очки за убийство врагов, сбор снаряжения и обнаружение секретов .
Отрицательное подкрепление: Штрафы за получение урона или гибель персонажа .

Автор приводит забавный пример «побочных эффектов» такого обучения, ссылаясь на эксперимент с ИИ в игре Pokémon Red . В том случае ИИ-агент развил иррациональный страх перед определенным зданием. Как выяснилось, в этом здании находился банк покемонов. Когда агент оставлял там своих прокачанных монстров, его общий уровень (в цифрах) падал, что система расценивала как катастрофический провал. В итоге ИИ был «травмирован» и отказывался даже приближаться к этому месту .

📊 Реальность против симуляции: Результаты тестов 11:28

Для оценки качества работы «нейросетевого движка» Google привлекла людей, чтобы они попытались отличить настоящую игру от сгенерированной. Исследователи использовали короткие клипы длительностью от 1,6 до 3,2 секунды .

Статистика эксперимента:

В 1,6-секундных роликах люди угадывали оригинал в 58% случаев .
В 3,2-секундных роликах точность составила 60% .

Учитывая, что случайный шанс составляет 50%, испытуемые лишь немногим лучше робота справлялись с задачей отличить реальность от симуляции . По мнению Веса Рота, это доказывает, что модель достигла «временной когерентности» — способности сохранять визуальную последовательность кадров, что раньше было главной проблемой видео-ИИ .

В заключение автор отмечает, что хотя технические детали реализации чрезвычайно сложны (например, использование аугментации шума для предотвращения деградации качества ), результат очевиден: индустрия видеоигр стоит на пороге революции, где игры будут не писаться, а «сниться» нейросетям.