Как запустить VideoGameBench: ИИ тестируют на Doom, Warcraft и Pokemon

Wes Roth 25,9 тыс. 18 мин 4 мин 19.04.2025
Главное

Видеоигры долгое время служили испытательным полигоном для искусственного интеллекта, но новый проект VideoGameBench переносит это противостояние на новый уровень. Ведущий канала Уэс Рот (Wes Roth) представил подробный обзор платформы, которая позволяет современным мультимодальным моделям (VLM) играть в классические хиты 90-х — от Doom до Warcraft 2 — используя только визуальные скриншоты для принятия решений.

🎮 Эпоха AI-гейминга: Классика 90-х против современных нейросетей 0:00

VideoGameBench — это открытая платформа для тестирования визуальных языковых моделей (Vision Language Models) в условиях реального времени или пошагового взаимодействия с игровым процессом . В отличие от традиционных бенчмарков, здесь ИИ приходится оперировать не текстом, а визуальными данными: скриншотами экрана, по которым он должен определять состояние здоровья, количество патронов и положение врагов.

В предварительном тесте, показанном Ротом, сразились лидеры индустрии: GPT-4o, Gemini 2.5 Pro, Gemini 2.0 Flash и Claude 3.5 Sonnet . Результаты оказались следующими:

По мнению Уэса Рота, такие игровые бенчмарки предоставляют критически важные данные о функциональности моделей, делая процесс тестирования ИИ более наглядным и доступным для широкой аудитории .

💻 Установка на Windows: Доступность для каждого 1:23

Автор видео подчеркивает важную особенность проекта: VideoGameBench отлично работает на Windows . В мире ИИ-разработок пользователи Windows часто чувствуют себя «гражданами второго сорта», так как большинство проектов оптимизированы под Linux или экосистему Apple, однако этот инструмент является исключением .

Основные этапы подготовки системы:

  1. Установка среды: Рекомендуется использовать Anaconda или Miniconda — бесплатные экосистемы с открытым исходным кодом для ИИ-проектов .
  2. Работа с терминалом: Для команд используется Anaconda PowerShell. Уэс Рот советует запускать её от имени администратора для избежания проблем с правами доступа .
  3. Создание окружения: С помощью команд mkdir и cd создается рабочая директория, после чего репозиторий клонируется с GitHub (git clone) .

Рот акцентирует внимание на важности использования виртуальных сред (команда conda create). По его словам, это «изолированное место», которое позволяет устанавливать зависимости проекта, не нарушая работу других программ на компьютере .

Технические требования и зависимости

После активации среды (conda activate) необходимо установить зависимости из файла requirements.txt . Этот файл автоматически подтягивает всё необходимое: эмуляторы Game Boy, инструменты обработки изображений и пакеты валидации данных . Также требуется установка Playwright для взаимодействия с браузерами в некоторых режимах игры .

🔴 Особенности запуска: ROM-файлы и авторские права 6:15

Одним из первых примеров в руководстве стал Pokemon Red. Для его запуска требуется файл образа игры — ROM с расширением .gb . Уэс Рот признает, что тема ROM-файлов юридически сложна: по его пониманию, если пользователь легально приобрел игру, он имеет право использовать её копию в эмуляторе, однако он призывает зрителей изучить этот вопрос самостоятельно или проконсультироваться в комментариях .

🛠 Управление процессом: Аргументы и модели 7:20

Запуск игр осуществляется через скрипт main.py с использованием различных аргументов командной строки. По словам автора, это напоминает запуск обычных .exe файлов, но с дополнительными инструкциями для интерпретатора Python .

Ключевые команды управления:

Для работы с проприетарными моделями необходимо настроить API-ключи. Рот отмечает, что процедура отличается для разных ОС: на Windows используется специальная команда установки переменной окружения, в то время как на Linux/Apple применяется export .

🔫 Демонстрация Doom 2: «ИИ зачистил комнату!» 11:53

В ходе живой демонстрации Doom 2 модель GPT-4o анализировала ситуацию в реальном времени под оригинальный саундтрек игры . ИИ получал скриншоты, распознавал уровень здоровья (например, 97%) и количество патронов.

Результаты заезда в Doom 2:

Существует также режим Light Mode. В этом режиме игра ставится на паузу, пока модель «думает» над следующим шагом, и снимается с паузы только в момент выполнения команды. Это позволяет менее быстрым моделям играть без риска быть убитыми во время вычислений .

🏰 Стратегии и логирование: Warcraft 2 и анализ действий 14:46

При тестировании Warcraft 2 Рот использовал модель Gemini 1.5 Pro через Google AI Studio . В стратегиях ИИ демонстрирует понимание контекста: он знает, что нужно строить бараки, добывать золото и рубить лес . Однако автор отмечает, что прогресс в стратегиях идет медленнее, чем в шутерах.

Для анализа работы ИИ предусмотрена система логов:

В завершение Уэс Рот призвал сообщество делиться результатами своих запусков и пообещал поддержку в устранении неполадок через свой новый сабреддит AI Guild .

💬 Цитаты

«Если вы на Windows PC, вы часто чувствуете себя второсортным гражданином в мире ИИ, но не здесь.»

«ИИ получил промпт: убедись, что уничтожил всех врагов, прежде чем идти дальше. И бум — комната зачищена!»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
VLM (Vision Language Model)
Нейросеть, способная понимать одновременно и текст, и визуальные изображения.
ROM
Цифровой образ данных с картриджа или диска старой игровой консоли.
Headless mode
Режим работы программы без графического интерфейса пользователя.
LiteLLM
Библиотека-адаптер для унификации вызовов API различных языковых моделей.
📊 Цифры
🗓 Хронология
  1. 1990-е Эпоха классических игр (Doom, Warcraft 2), которые используются в бенчмарке.
  2. Декабрь 2024 Выход Gemini 2.0 (упоминается как уже доступный проект).
⚖️ Другая сторона
Искусственный интеллект VideoGameBench Wes Roth Vision Language Models GPT-4o Gemini 2.0