Как нейросеть Oasis генерирует игры в реальном времени без программного кода

Wes Roth 16,2 тыс. 14 мин 4 мин 08.11.2024
Главное

Технологический мир стоит на пороге революции в создании цифрового контента: искусственный интеллект научился генерировать не просто видео, а целые интерактивные миры в режиме реального времени. Автор канала Wes Roth разбирает проект Oasis — первую ИИ-модель, которая воссоздает геймплей Minecraft без единой строчки программного кода, полагаясь исключительно на нейросетевые веса и видеопамять.

🎮 Oasis: Видеоигра без программного кода 0:00

Проект Oasis представляет собой принципиально иной подход к созданию видеоигр: в отличие от традиционных проектов, здесь нет заранее прописанных уровней, текстур или физического движка . Весь игровой процесс в стиле Minecraft генерируется «на лету» нейросетью. Модель берет на себя всё — от освещения и геометрии зданий до сложных механик, таких как управление инвентарем .

По словам Уэса Рота, это больше похоже на шаг в мир чистого воображения, где правила игры диктуются не программистом, а обученной интуицией ИИ . Модель демонстрирует глубокое понимание того, как объекты должны взаимодействовать друг с другом. Это не просто имитация картинки, а функциональная симуляция среды, реагирующая на действия игрока в реальном времени .

🧠 Архитектура: Как ИИ «видит» и «строит» мир 1:07

Техническая база Oasis опирается на комбинацию двух ключевых технологий: пространственного автоэнкодера (spatial autoencoder) и латентной диффузионной основы (latent diffusion backbone) .

Огромную роль в производительности играют трансформеры — архитектура, представленная исследователями Google в 2017 году . Благодаря им Oasis способен выдавать новый кадр каждые 0,04 секунды . Это делает взаимодействие мгновенным: в отличие от тяжелых нейросетевых видеогенераторов, которые создают несколько секунд видео минутами, здесь пользователь получает полноценный интерактивный опыт .

⚡ Оптимизация и аппаратная часть: Чипы Etched 3:34

Уэс Рот проводит параллель с проектом GameN от Google, где ИИ успешно симулировал классический Doom (1993) . Тот проект работал на тензорных процессорах Google — TPU, выдавая более 20 кадров в секунду .

Однако Oasis идет дальше в плане аппаратной оптимизации. Проект использует специализированные чипы от компании Sohu (Etched), которые разработаны исключительно для обработки ИИ-вычислений . Это позволяет не только поддерживать высокую скорость генерации, но и открывает путь к будущему апгрейду разрешения до 4K . Автор подчеркивает, что наличие кастомного «движка» на уровне железа — критический фактор для масштабируемости подобных реальностей .

📚 Обучение ИИ: Школа Minecraft и «Силовая диффузия» 4:40

Для создания стабильного мира разработчики применили метод «диффузионного принуждения» (diffusion forcing) . ИИ учился превращать шум в структурированные объекты — деревья, здания и существ — кадр за кадром .

В качестве учебного материала использовался гигантский массив видеороликов по Minecraft. Уэс Рот отмечает ироничный факт: разработчики использовали открытые наборы данных Minecraft, собранные компанией OpenAI . Песочница Minecraft оказалась идеальным полигоном, так как она содержит бесконечное разнообразие взаимодействий игрока с открытым миром .

Для борьбы с визуальными артефактами и «галлюцинациями» (когда объекты внезапно меняются или исчезают) была использована техника динамического зашумления (dynamic noising) . В процессе обучения в модель специально вносили помехи, заставляя её адаптироваться и поддерживать стабильность мира даже в непредсказуемых условиях . Это позволило добиться временной согласованности: действия игрока имеют последствия, а ландшафт не меняется случайным образом, когда вы отворачиваетесь .

⚠️ Критика и текущие ограничения 8:01

Несмотря на технологический прорыв, Уэс Рот признает, что проект вызывает скепсис у части аудитории в социальных сетях. Многие называют текущий результат «нелепым» или «глючным» . Основные проблемы модели на данный момент:

Автор возражает критикам, указывая на то, что Oasis сейчас находится в стадии «малыша, делающего первые шаги» . Главное здесь не текущее качество картинки, а сам принцип работы «нейросетевого движка», который ближе к биологическому мозгу, чем к стандартному софту .

🚀 Будущее: От игр к симуляции реальности 10:38

Потенциал Oasis выходит далеко за рамки индустрии развлечений. По мнению Уэса Рота, подобные технологии изменят многие сферы деятельности:

  1. Архитектура и дизайн: возможность видеть изменения в структуре и освещении здания мгновенно, просто «играя» с макетом в реальном времени .
  2. Кинематограф: создание виртуальных декораций, которые реагируют на движения актеров, позволяя снимать бесконечное количество дублей в любой воображаемой локации .
  3. Образование: студенты-историки смогут посещать реконструированные древние города, а биологи — изучать анатомию на виртуальных моделях без вреда для животных .
  4. Наука: моделирование сложных сред — от климатических изменений до поведения субатомных частиц — в виртуальных лабораториях, где можно проводить невозможные в реальности эксперименты .

Уэс Рот заключает, что Oasis — это новый вид научного инструмента, приближающий человечество к созданию полноценной симулированной реальности . Если человеческий мозг способен генерировать реалистичные миры во сне, то разработка искусственного «мозга», способного на то же самое в интерактивном режиме, — лишь вопрос времени и вычислительных мощностей .

💬 Цитаты

«Игра даже не работает на коде — это как шаг в мир чистого воображения.»

«Трансформеры позволяют Oasis генерировать кадры невероятно быстро — один кадр за 0,04 секунды.»

«Мы начинаем проектировать искусственные мозги, способные воспроизводить реальность в интерактивном режиме.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Латентная диффузия
Метод генерации изображений, при котором нейросеть постепенно превращает случайный шум в осмысленную картинку.
Трансформеры
Тип архитектуры нейросетей, который позволяет эффективно обрабатывать последовательности данных и лежит в основе большинства современных ИИ.
Автоэнкодер
Нейросеть, предназначенная для эффективного сжатия данных и их последующего восстановления.
TPU (Tensor Processing Unit)
Специализированный процессор от Google, оптимизированный для задач машинного обучения.
📊 Цифры
🗓 Хронология
  1. 2017 Исследователи Google представили архитектуру Transformer в статье 'Attention Is All You Need'.
  2. 2024 Выход и обсуждение проекта Oasis, генерирующего Minecraft в реальном времени.
⚖️ Другая сторона
Искусственный интеллект Oasis Minecraft Wes Roth Etched Transformers