# Microsoft Muse: как генеративный ИИ создает геймплей без программного кода

Источник: https://www.youtube.com/watch?v=v76CoPoZ-7A
Канал: Wes Roth
Опубликовано: 25.02.2025

---

В мире геймдева и искусственного интеллекта намечается тектонический сдвиг: компания Microsoft представила проект Muse, который позволяет генерировать полноценный игровой процесс с помощью нейросетей. Автор YouTube-канала Wes Roth анализирует, как новая архитектура Wham превращает игровой движок в предсказательную модель и почему это может навсегда изменить работу дизайнеров и программистов.

## 🕹️ От кода к воображению: Рождение Muse
[[JUMP:00:00]]

Традиционно видеоигры строятся на жестком программном коде, где каждое действие игрока прописано разработчиками [03:03]. Однако современные технологические гиганты, такие как Google DeepMind и Microsoft, экспериментируют с «нейронными игровыми движками». Вместо выполнения скриптов такие системы используют нейросети для того, чтобы буквально «воображать» следующий кадр игры в ответ на действия пользователя [00:51].

Microsoft представила свою разработку под кодовым названием **Wham** (World and Human Action model), которая внутри компании получила имя **Muse** [01:41]. По словам Уэса Рота, Muse — это генеративная модель ИИ, способная создавать визуальные эффекты игры, действия контроллера или и то, и другое одновременно [01:29].

Ключевые особенности модели:

*   Обучена на огромном массиве данных игры *Bleeding Edge* от студии Ninja Theory [02:10].
*   Использует записи реального геймплея, сопоставленные с нажатиями кнопок на контроллере.
*   Способна предсказывать развитие событий в виртуальной среде на несколько минут вперед [03:57].

По мнению ведущего, Muse — это не просто инструмент визуализации, а полноценная «модель мира», которая понимает физику и правила игры не через код, а через наблюдение за опытом людей [03:44].

## 🧠 Техническая «начинка»: Трансформеры и миллионы обновлений
[[JUMP:08:31]]

В основе Muse лежит архитектура **Transformer**, ставшая индустриальным стандартом после знаменитой статьи Google 2017 года «Attention Is All You Need» [08:43]. Уэс Рот подчеркивает, что именно эта архитектура позволила ИИ преодолеть проблему «забывчивости» контекста в длинных последовательностях данных [09:34].

Прогресс обучения модели Wham весом в 1,6 млрд параметров демонстрирует логарифмический рост качества [05:43]:

1.  **10 000 обновлений**: Геймплей выглядит грубым, персонажи едва узнаваемы, картинка быстро разрушается [05:03].
2.  **100 000 обновлений**: Появляется временная стабильность, базовое движение и геометрия сохраняются, но сложные механики (например, полет) еще не работают [05:16].
3.  **1 000 000 обновлений**: Модель демонстрирует поразительную точность. Она корректно обрабатывает взаимодействие с объектами и полеты персонажей, полностью соответствуя «эталонному» геймплею [05:56].

## 🎨 Wham Demonstrator: Новая парадигма творчества
[[JUMP:06:10]]

Чтобы исследовать практическое применение технологии, Microsoft провела хакатон, итогом которого стал **Wham Demonstrator** [06:10]. Этот инструмент предлагает пользователям новый способ взаимодействия с игровым контентом.

Процесс работы выглядит следующим образом:

*   Пользователь загружает одно статичное изображение (например, постер игры) [06:50].
*   Muse генерирует несколько вариантов того, как это изображение могло бы ожить в движении [07:03].
*   Разработчик может выбрать понравившийся вариант и управлять персонажем внутри сгенерированной последовательности с помощью обычного геймпада [07:28].

Microsoft выделяет три столпа, на которых держится Muse: **согласованность** (физика и логика движений), **разнообразие** (множество вариантов развития событий) и **устойчивость** (сохранение правок пользователя на протяжении всей генерации) [07:42]. По мнению автора видео, для инди-разработчиков это эквивалентно найму целой команды дизайнеров, доступных в один клик [10:27].

## 🕵️ Сбор данных и проект Recall: Этический вопрос
[[JUMP:10:39]]

Обсуждение Muse неизбежно затрагивает тему сбора данных. Microsoft смогла обучить модель только благодаря наличию записей действий игроков в *Bleeding Edge* [11:56]. Для сравнения, Google DeepMind при создании нейросетевого движка для *Doom* пришлось использовать ИИ-агентов, которые «играли» в игру 24/7, чтобы создать обучающую выборку, так как готовых размеченных данных не хватало [12:08].

Уэс Рот проводит параллель между разработкой игровых моделей и скандальной функцией **Windows Recall**, которая должна записывать все действия пользователя на компьютере [10:39].

*   Официально данные Recall хранятся локально и не используются для обучения [10:52].
*   Однако Рот утверждает, что такие данные — «золотая жила» для создания ИИ-агентов, способных управлять компьютером вместо человека, подобно оператору от OpenAI [11:05].

Ведущий отмечает, что многих пользователей пугает подобная слежка. Его личная позиция заключается в требовании прозрачности: компании должны четко объяснять, когда ведется запись, и давать простую возможность ее отключить [11:31]. В шутку он предложил переименовать Recall в **K.O.R.N.** (Knowledge Oriented Responsive Navigator), иронизируя над любовью корпораций к звучным аббревиатурам [13:26].