Технологический мир стоит на пороге революции в создании цифрового контента: искусственный интеллект научился генерировать не просто видео, а целые интерактивные миры в режиме реального времени. Автор канала Wes Roth разбирает проект Oasis — первую ИИ-модель, которая воссоздает геймплей Minecraft без единой строчки программного кода, полагаясь исключительно на нейросетевые веса и видеопамять.
🎮 Oasis: Видеоигра без программного кода 0:00
Проект Oasis представляет собой принципиально иной подход к созданию видеоигр: в отличие от традиционных проектов, здесь нет заранее прописанных уровней, текстур или физического движка . Весь игровой процесс в стиле Minecraft генерируется «на лету» нейросетью. Модель берет на себя всё — от освещения и геометрии зданий до сложных механик, таких как управление инвентарем .
По словам Уэса Рота, это больше похоже на шаг в мир чистого воображения, где правила игры диктуются не программистом, а обученной интуицией ИИ . Модель демонстрирует глубокое понимание того, как объекты должны взаимодействовать друг с другом. Это не просто имитация картинки, а функциональная симуляция среды, реагирующая на действия игрока в реальном времени .
🧠 Архитектура: Как ИИ «видит» и «строит» мир 1:07
Техническая база Oasis опирается на комбинацию двух ключевых технологий: пространственного автоэнкодера (spatial autoencoder) и латентной диффузионной основы (latent diffusion backbone) .
- Пространственный автоэнкодер: работает как архитектор-картограф. Он берет сложную информацию о 3D-мире и сжимает её в компактный цифровой «чертеж» . Это напоминает процесс сохранения фотографии в формате сжатия, где данные уменьшаются, но детали и текстуры сохраняются для последующей работы .
- Латентная диффузия: отвечает за «проявку» изображения. Аналогично тому, как работают Stable Diffusion или Midjourney, нейросеть начинает с визуального шума и постепенно, шаг за шагом, убирает его, восстанавливая четкую картинку . В данном случае она восстанавливает не статичное фото, а целую игровую сцену, основываясь на сжатом чертеже от автоэнкодера .
Огромную роль в производительности играют трансформеры — архитектура, представленная исследователями Google в 2017 году . Благодаря им Oasis способен выдавать новый кадр каждые 0,04 секунды . Это делает взаимодействие мгновенным: в отличие от тяжелых нейросетевых видеогенераторов, которые создают несколько секунд видео минутами, здесь пользователь получает полноценный интерактивный опыт .
⚡ Оптимизация и аппаратная часть: Чипы Etched 3:34
Уэс Рот проводит параллель с проектом GameN от Google, где ИИ успешно симулировал классический Doom (1993) . Тот проект работал на тензорных процессорах Google — TPU, выдавая более 20 кадров в секунду .
Однако Oasis идет дальше в плане аппаратной оптимизации. Проект использует специализированные чипы от компании Sohu (Etched), которые разработаны исключительно для обработки ИИ-вычислений . Это позволяет не только поддерживать высокую скорость генерации, но и открывает путь к будущему апгрейду разрешения до 4K . Автор подчеркивает, что наличие кастомного «движка» на уровне железа — критический фактор для масштабируемости подобных реальностей .
📚 Обучение ИИ: Школа Minecraft и «Силовая диффузия» 4:40
Для создания стабильного мира разработчики применили метод «диффузионного принуждения» (diffusion forcing) . ИИ учился превращать шум в структурированные объекты — деревья, здания и существ — кадр за кадром .
В качестве учебного материала использовался гигантский массив видеороликов по Minecraft. Уэс Рот отмечает ироничный факт: разработчики использовали открытые наборы данных Minecraft, собранные компанией OpenAI . Песочница Minecraft оказалась идеальным полигоном, так как она содержит бесконечное разнообразие взаимодействий игрока с открытым миром .
Для борьбы с визуальными артефактами и «галлюцинациями» (когда объекты внезапно меняются или исчезают) была использована техника динамического зашумления (dynamic noising) . В процессе обучения в модель специально вносили помехи, заставляя её адаптироваться и поддерживать стабильность мира даже в непредсказуемых условиях . Это позволило добиться временной согласованности: действия игрока имеют последствия, а ландшафт не меняется случайным образом, когда вы отворачиваетесь .
⚠️ Критика и текущие ограничения 8:01
Несмотря на технологический прорыв, Уэс Рот признает, что проект вызывает скепсис у части аудитории в социальных сетях. Многие называют текущий результат «нелепым» или «глючным» . Основные проблемы модели на данный момент:
- «Размытость» сна: изображение на расстоянии теряет четкость, ИИ пока трудно рендерить детализацию дальних планов в реальном времени .
- Проблемы с инвентарем: число предметов в руках игрока может хаотично меняться (было 5, стало 10, затем 12), так как модели не хватает долгосрочной памяти .
- Физика объектов: точность взаимодействия предметов всё еще требует доработки; иногда объекты ведут себя не так, как ожидает игрок, привыкший к классическому коду .
Автор возражает критикам, указывая на то, что Oasis сейчас находится в стадии «малыша, делающего первые шаги» . Главное здесь не текущее качество картинки, а сам принцип работы «нейросетевого движка», который ближе к биологическому мозгу, чем к стандартному софту .
🚀 Будущее: От игр к симуляции реальности 10:38
Потенциал Oasis выходит далеко за рамки индустрии развлечений. По мнению Уэса Рота, подобные технологии изменят многие сферы деятельности:
- Архитектура и дизайн: возможность видеть изменения в структуре и освещении здания мгновенно, просто «играя» с макетом в реальном времени .
- Кинематограф: создание виртуальных декораций, которые реагируют на движения актеров, позволяя снимать бесконечное количество дублей в любой воображаемой локации .
- Образование: студенты-историки смогут посещать реконструированные древние города, а биологи — изучать анатомию на виртуальных моделях без вреда для животных .
- Наука: моделирование сложных сред — от климатических изменений до поведения субатомных частиц — в виртуальных лабораториях, где можно проводить невозможные в реальности эксперименты .
Уэс Рот заключает, что Oasis — это новый вид научного инструмента, приближающий человечество к созданию полноценной симулированной реальности . Если человеческий мозг способен генерировать реалистичные миры во сне, то разработка искусственного «мозга», способного на то же самое в интерактивном режиме, — лишь вопрос времени и вычислительных мощностей .