Как нейросеть научилась «грезить» игрой Doom без единой строчки программного кода

Wes Roth 188 тыс. 14 мин 4 мин 30.08.2024
Главное

В марте 2024 года глава Nvidia Дженсен Хуанг предсказал, что игры, полностью генерируемые искусственным интеллектом в реальном времени, появятся в течение десяти лет. Однако компания Google DeepMind представила технологию, которая доказывает: это будущее уже наступило, и культовый шутер Doom теперь может существовать без традиционного программного кода.

🕹️ Смерть игрового движка: Doom как нейросеть 0:00

В индустрии видеоигр произошло событие, которое Вес Рот называет «концом эпохи кода» . Google DeepMind представила модель, способную симулировать игру Doom целиком с помощью нейронной сети. Это не просто видеозапись или скрипт; это диффузионная модель, которая буквально «выгрезивает» (dreams up) игровой мир, врагов и действия игрока попиксельно в режиме реального времени .

Ключевые отличия нового подхода:

По мнению Веса Рота, значимость этого прорыва трудно переоценить, так как Doom исторически является лакмусовой бумажкой для любых новых технологий . Программисты запускали эту игру на кассовых аппаратах, микроволновках и даже тестах на беременность, но запуск игры внутри «цифрового мозга» нейросети — это принципиально иной уровень .

🧠 Наследие Джона Кармака и «галлюцинации» Пи 1:37

Оригинальный Doom, выпущенный в 1993 году, опирался на гений Джона Кармака, который вручную написал революционный для своего времени 3D-движок . Вес Рот напоминает, что Кармак создавал этот код в эпоху до интернета, полагаясь на собственную память и математические навыки.

Интересный исторический факт:

Автор видео подчеркивает фундаментальную разницу: любая предыдущая игра была набором строгих инструкций, написанных человеком . Если в игре происходило случайное событие, оно было запрограммировано. В новой модели от Google разработчика как такового нет — есть только нейронные сети, обучающиеся на данных .

🎨 Как ИИ учится «рисовать» игру: Диффузия и шум 4:15

В основе новой технологии лежит архитектура Stable Diffusion . Вес Рот объясняет принцип работы диффузионных моделей через аналогию с шумом на старом телевизоре.

Процесс обучения выглядит следующим образом:

  1. Нейросети показывают изображение (например, кота).
  2. К изображению постепенно добавляют визуальный шум, пока оно не превратится в хаос из пикселей .
  3. Модель запоминает этот процесс и учится запускать его в обратном порядке: превращать случайный шум в четкое изображение .

По признанию самого Рота, интуитивно понять, почему это работает, крайне сложно — документация по таким моделям представляет собой «стены из математических формул» . Он сравнивает это с попыткой восстановить работающий iPhone после того, как вы посмотрели тысячи часов видео, где телефоны измельчают в блендере . Тем не менее, метод работает: вместо фотографий котов модель Google DeepMind генерирует кадры игрового процесса Doom .

🤖 Обучение через «травму»: ИИ-агенты и VizDoom 7:19

Для обучения модели требовались огромные массивы данных — записи миллионов часов игры в Doom. Чтобы не нанимать людей для этой задачи, исследователи Google создали специальных ИИ-агентов на базе архитектуры VizDoom .

Агенты обучались с помощью обучения с подкреплением (Reinforcement Learning, RL). Вес Рот описывает это как систему «кнута и пряника»:

Автор приводит забавный пример «побочных эффектов» такого обучения, ссылаясь на эксперимент с ИИ в игре Pokémon Red . В том случае ИИ-агент развил иррациональный страх перед определенным зданием. Как выяснилось, в этом здании находился банк покемонов. Когда агент оставлял там своих прокачанных монстров, его общий уровень (в цифрах) падал, что система расценивала как катастрофический провал. В итоге ИИ был «травмирован» и отказывался даже приближаться к этому месту .

📊 Реальность против симуляции: Результаты тестов 11:28

Для оценки качества работы «нейросетевого движка» Google привлекла людей, чтобы они попытались отличить настоящую игру от сгенерированной. Исследователи использовали короткие клипы длительностью от 1,6 до 3,2 секунды .

Статистика эксперимента:

Учитывая, что случайный шанс составляет 50%, испытуемые лишь немногим лучше робота справлялись с задачей отличить реальность от симуляции . По мнению Веса Рота, это доказывает, что модель достигла «временной когерентности» — способности сохранять визуальную последовательность кадров, что раньше было главной проблемой видео-ИИ .

В заключение автор отмечает, что хотя технические детали реализации чрезвычайно сложны (например, использование аугментации шума для предотвращения деградации качества ), результат очевиден: индустрия видеоигр стоит на пороге революции, где игры будут не писаться, а «сниться» нейросетям.

💬 Цитаты

«Это цифровой мозг, который выгрезивает мир и всё, что в нём происходит, пока вы играете.»

Вес Рот 0:27

«Люди-тестеры лишь немногим лучше случайного шанса справлялись с тем, чтобы отличить симуляцию от реальной игры.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Диффузионная модель
Тип нейросети, который генерирует данные (изображения или видео), постепенно убирая шум из случайного хаоса.
Временная когерентность
Способность видео-нейросети сохранять логическую и визуальную последовательность между кадрами.
Обучение с подкреплением (RL)
Метод машинного обучения, при котором агент получает награды за правильные действия и штрафы за ошибки.
📊 Цифры
🗓 Хронология
  1. 1993 Выход оригинальной игры Doom от id Software.
  2. Март 2024 Дженсен Хуанг предсказывает появление полностью ИИ-генерируемых игр через 10 лет.
  3. Август 2024 Google DeepMind публикует результаты работы над GameNGen (симуляция Doom).
⚖️ Другая сторона
Искусственный интеллект Google DeepMind GameNGen John Carmack Doom Reinforcement Learning