Microsoft Muse: как генеративный ИИ создает геймплей без программного кода

Wes Roth 28,7 тыс. 14 мин 3 мин 25.02.2025
Главное

В мире геймдева и искусственного интеллекта намечается тектонический сдвиг: компания Microsoft представила проект Muse, который позволяет генерировать полноценный игровой процесс с помощью нейросетей. Автор YouTube-канала Wes Roth анализирует, как новая архитектура Wham превращает игровой движок в предсказательную модель и почему это может навсегда изменить работу дизайнеров и программистов.

🕹️ От кода к воображению: Рождение Muse 0:00

Традиционно видеоигры строятся на жестком программном коде, где каждое действие игрока прописано разработчиками . Однако современные технологические гиганты, такие как Google DeepMind и Microsoft, экспериментируют с «нейронными игровыми движками». Вместо выполнения скриптов такие системы используют нейросети для того, чтобы буквально «воображать» следующий кадр игры в ответ на действия пользователя .

Microsoft представила свою разработку под кодовым названием Wham (World and Human Action model), которая внутри компании получила имя Muse . По словам Уэса Рота, Muse — это генеративная модель ИИ, способная создавать визуальные эффекты игры, действия контроллера или и то, и другое одновременно .

Ключевые особенности модели:

По мнению ведущего, Muse — это не просто инструмент визуализации, а полноценная «модель мира», которая понимает физику и правила игры не через код, а через наблюдение за опытом людей .

🧠 Техническая «начинка»: Трансформеры и миллионы обновлений 8:31

В основе Muse лежит архитектура Transformer, ставшая индустриальным стандартом после знаменитой статьи Google 2017 года «Attention Is All You Need» . Уэс Рот подчеркивает, что именно эта архитектура позволила ИИ преодолеть проблему «забывчивости» контекста в длинных последовательностях данных .

Прогресс обучения модели Wham весом в 1,6 млрд параметров демонстрирует логарифмический рост качества :

  1. 10 000 обновлений: Геймплей выглядит грубым, персонажи едва узнаваемы, картинка быстро разрушается .
  2. 100 000 обновлений: Появляется временная стабильность, базовое движение и геометрия сохраняются, но сложные механики (например, полет) еще не работают .
  3. 1 000 000 обновлений: Модель демонстрирует поразительную точность. Она корректно обрабатывает взаимодействие с объектами и полеты персонажей, полностью соответствуя «эталонному» геймплею .

🎨 Wham Demonstrator: Новая парадигма творчества 6:10

Чтобы исследовать практическое применение технологии, Microsoft провела хакатон, итогом которого стал Wham Demonstrator . Этот инструмент предлагает пользователям новый способ взаимодействия с игровым контентом.

Процесс работы выглядит следующим образом:

Microsoft выделяет три столпа, на которых держится Muse: согласованность (физика и логика движений), разнообразие (множество вариантов развития событий) и устойчивость (сохранение правок пользователя на протяжении всей генерации) . По мнению автора видео, для инди-разработчиков это эквивалентно найму целой команды дизайнеров, доступных в один клик .

🕵️ Сбор данных и проект Recall: Этический вопрос 10:39

Обсуждение Muse неизбежно затрагивает тему сбора данных. Microsoft смогла обучить модель только благодаря наличию записей действий игроков в Bleeding Edge . Для сравнения, Google DeepMind при создании нейросетевого движка для Doom пришлось использовать ИИ-агентов, которые «играли» в игру 24/7, чтобы создать обучающую выборку, так как готовых размеченных данных не хватало .

Уэс Рот проводит параллель между разработкой игровых моделей и скандальной функцией Windows Recall, которая должна записывать все действия пользователя на компьютере .

Ведущий отмечает, что многих пользователей пугает подобная слежка. Его личная позиция заключается в требовании прозрачности: компании должны четко объяснять, когда ведется запись, и давать простую возможность ее отключить . В шутку он предложил переименовать Recall в K.O.R.N. (Knowledge Oriented Responsive Navigator), иронизируя над любовью корпораций к звучным аббревиатурам .

💬 Цитаты

«Вместо того чтобы быть закодированным, мы учим эти нейронные сети предсказывать, что произойдет, когда вы нажмете на кнопки.»

«Для инди-разработчиков, у которых нет ресурсов большой студии, это может быть похоже на наличие целой команды ИИ-дизайнеров в вашем распоряжении.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Wham (World and Human Action model)
Модель мира и действий человека, разработанная Microsoft для симуляции игровых сред.
Transformer
Архитектура нейронных сетей, основанная на механизме внимания, которая легла в основу современных языковых моделей.
Bleeding Edge
Многопользовательский боевик от Ninja Theory, данные которого использовались для обучения Muse.
📊 Цифры
🗓 Хронология
  1. 2017 Публикация статьи Google 'Attention Is All You Need', представившей архитектуру Transformer.
  2. Недавно Илон Маск объявил о запуске ИИ-игровой студии в рамках xAI.
⚖️ Другая сторона
Искусственный интеллект Microsoft Muse Wham Ninja Theory Transformer