# Как нейросеть Oasis генерирует игры в реальном времени без программного кода

Источник: https://www.youtube.com/watch?v=4IeVIu03opo
Канал: Wes Roth
Опубликовано: 08.11.2024

---

Технологический мир стоит на пороге революции в создании цифрового контента: искусственный интеллект научился генерировать не просто видео, а целые интерактивные миры в режиме реального времени. Автор канала Wes Roth разбирает проект Oasis — первую ИИ-модель, которая воссоздает геймплей Minecraft без единой строчки программного кода, полагаясь исключительно на нейросетевые веса и видеопамять.

## 🎮 Oasis: Видеоигра без программного кода
[[JUMP:00:00]]

Проект Oasis представляет собой принципиально иной подход к созданию видеоигр: в отличие от традиционных проектов, здесь нет заранее прописанных уровней, текстур или физического движка [00:13]. Весь игровой процесс в стиле Minecraft генерируется «на лету» нейросетью. Модель берет на себя всё — от освещения и геометрии зданий до сложных механик, таких как управление инвентарем [00:41].

По словам Уэса Рота, это больше похоже на шаг в мир чистого воображения, где правила игры диктуются не программистом, а обученной интуицией ИИ [00:26]. Модель демонстрирует глубокое понимание того, как объекты должны взаимодействовать друг с другом. Это не просто имитация картинки, а функциональная симуляция среды, реагирующая на действия игрока в реальном времени [00:54].

## 🧠 Архитектура: Как ИИ «видит» и «строит» мир
[[JUMP:01:07]]

Техническая база Oasis опирается на комбинацию двух ключевых технологий: пространственного автоэнкодера (spatial autoencoder) и латентной диффузионной основы (latent diffusion backbone) [01:07].

*   **Пространственный автоэнкодер:** работает как архитектор-картограф. Он берет сложную информацию о 3D-мире и сжимает её в компактный цифровой «чертеж» [01:22]. Это напоминает процесс сохранения фотографии в формате сжатия, где данные уменьшаются, но детали и текстуры сохраняются для последующей работы [01:35].
*   **Латентная диффузия:** отвечает за «проявку» изображения. Аналогично тому, как работают Stable Diffusion или Midjourney, нейросеть начинает с визуального шума и постепенно, шаг за шагом, убирает его, восстанавливая четкую картинку [02:14]. В данном случае она восстанавливает не статичное фото, а целую игровую сцену, основываясь на сжатом чертеже от автоэнкодера [02:27].

Огромную роль в производительности играют трансформеры — архитектура, представленная исследователями Google в 2017 году [02:41]. Благодаря им Oasis способен выдавать новый кадр каждые 0,04 секунды [03:07]. Это делает взаимодействие мгновенным: в отличие от тяжелых нейросетевых видеогенераторов, которые создают несколько секунд видео минутами, здесь пользователь получает полноценный интерактивный опыт [03:21].

## ⚡ Оптимизация и аппаратная часть: Чипы Etched
[[JUMP:03:34]]

Уэс Рот проводит параллель с проектом GameN от Google, где ИИ успешно симулировал классический Doom (1993) [03:34]. Тот проект работал на тензорных процессорах Google — TPU, выдавая более 20 кадров в секунду [03:48].

Однако Oasis идет дальше в плане аппаратной оптимизации. Проект использует специализированные чипы от компании Sohu (Etched), которые разработаны исключительно для обработки ИИ-вычислений [04:14]. Это позволяет не только поддерживать высокую скорость генерации, но и открывает путь к будущему апгрейду разрешения до 4K [10:12]. Автор подчеркивает, что наличие кастомного «движка» на уровне железа — критический фактор для масштабируемости подобных реальностей [04:26].

## 📚 Обучение ИИ: Школа Minecraft и «Силовая диффузия»
[[JUMP:04:40]]

Для создания стабильного мира разработчики применили метод «диффузионного принуждения» (diffusion forcing) [04:53]. ИИ учился превращать шум в структурированные объекты — деревья, здания и существ — кадр за кадром [05:08].

В качестве учебного материала использовался гигантский массив видеороликов по Minecraft. Уэс Рот отмечает ироничный факт: разработчики использовали открытые наборы данных Minecraft, собранные компанией OpenAI [06:05]. Песочница Minecraft оказалась идеальным полигоном, так как она содержит бесконечное разнообразие взаимодействий игрока с открытым миром [05:38].

Для борьбы с визуальными артефактами и «галлюцинациями» (когда объекты внезапно меняются или исчезают) была использована техника динамического зашумления (dynamic noising) [07:07]. В процессе обучения в модель специально вносили помехи, заставляя её адаптироваться и поддерживать стабильность мира даже в непредсказуемых условиях [07:21]. Это позволило добиться временной согласованности: действия игрока имеют последствия, а ландшафт не меняется случайным образом, когда вы отворачиваетесь [07:35].

## ⚠️ Критика и текущие ограничения
[[JUMP:08:01]]

Несмотря на технологический прорыв, Уэс Рот признает, что проект вызывает скепсис у части аудитории в социальных сетях. Многие называют текущий результат «нелепым» или «глючным» [08:13]. Основные проблемы модели на данный момент:

*   **«Размытость» сна:** изображение на расстоянии теряет четкость, ИИ пока трудно рендерить детализацию дальних планов в реальном времени [08:39].
*   **Проблемы с инвентарем:** число предметов в руках игрока может хаотично меняться (было 5, стало 10, затем 12), так как модели не хватает долгосрочной памяти [09:06].
*   **Физика объектов:** точность взаимодействия предметов всё еще требует доработки; иногда объекты ведут себя не так, как ожидает игрок, привыкший к классическому коду [08:52].

Автор возражает критикам, указывая на то, что Oasis сейчас находится в стадии «малыша, делающего первые шаги» [14:04]. Главное здесь не текущее качество картинки, а сам принцип работы «нейросетевого движка», который ближе к биологическому мозгу, чем к стандартному софту [14:18].

## 🚀 Будущее: От игр к симуляции реальности
[[JUMP:10:38]]

Потенциал Oasis выходит далеко за рамки индустрии развлечений. По мнению Уэса Рота, подобные технологии изменят многие сферы деятельности:

1.  **Архитектура и дизайн:** возможность видеть изменения в структуре и освещении здания мгновенно, просто «играя» с макетом в реальном времени [11:03].
2.  **Кинематограф:** создание виртуальных декораций, которые реагируют на движения актеров, позволяя снимать бесконечное количество дублей в любой воображаемой локации [11:16].
3.  **Образование:** студенты-историки смогут посещать реконструированные древние города, а биологи — изучать анатомию на виртуальных моделях без вреда для животных [11:40].
4.  **Наука:** моделирование сложных сред — от климатических изменений до поведения субатомных частиц — в виртуальных лабораториях, где можно проводить невозможные в реальности эксперименты [12:07].

Уэс Рот заключает, что Oasis — это новый вид научного инструмента, приближающий человечество к созданию полноценной симулированной реальности [12:22]. Если человеческий мозг способен генерировать реалистичные миры во сне, то разработка искусственного «мозга», способного на то же самое в интерактивном режиме, — лишь вопрос времени и вычислительных мощностей [12:47].