Видеоигры долгое время служили испытательным полигоном для искусственного интеллекта, но новый проект VideoGameBench переносит это противостояние на новый уровень. Ведущий канала Уэс Рот (Wes Roth) представил подробный обзор платформы, которая позволяет современным мультимодальным моделям (VLM) играть в классические хиты 90-х — от Doom до Warcraft 2 — используя только визуальные скриншоты для принятия решений.
🎮 Эпоха AI-гейминга: Классика 90-х против современных нейросетей 0:00
VideoGameBench — это открытая платформа для тестирования визуальных языковых моделей (Vision Language Models) в условиях реального времени или пошагового взаимодействия с игровым процессом . В отличие от традиционных бенчмарков, здесь ИИ приходится оперировать не текстом, а визуальными данными: скриншотами экрана, по которым он должен определять состояние здоровья, количество патронов и положение врагов.
В предварительном тесте, показанном Ротом, сразились лидеры индустрии: GPT-4o, Gemini 2.5 Pro, Gemini 2.0 Flash и Claude 3.5 Sonnet . Результаты оказались следующими:
- GPT-4o и Gemini 2.5 Pro выбыли на ранних этапах теста.
- Победителем в конкретном забеге стала модель Claude 3.5 Sonnet, показавшая лучший прогресс .
- На платформе доступен внушительный список культовых игр: Pokemon Red, Doom 1 и 2, Quake, Civilization, Warcraft 2, XCOM, Need for Speed и Wolfenstein .
По мнению Уэса Рота, такие игровые бенчмарки предоставляют критически важные данные о функциональности моделей, делая процесс тестирования ИИ более наглядным и доступным для широкой аудитории .
💻 Установка на Windows: Доступность для каждого 1:23
Автор видео подчеркивает важную особенность проекта: VideoGameBench отлично работает на Windows . В мире ИИ-разработок пользователи Windows часто чувствуют себя «гражданами второго сорта», так как большинство проектов оптимизированы под Linux или экосистему Apple, однако этот инструмент является исключением .
Основные этапы подготовки системы:
- Установка среды: Рекомендуется использовать Anaconda или Miniconda — бесплатные экосистемы с открытым исходным кодом для ИИ-проектов .
- Работа с терминалом: Для команд используется Anaconda PowerShell. Уэс Рот советует запускать её от имени администратора для избежания проблем с правами доступа .
- Создание окружения: С помощью команд
mkdirиcdсоздается рабочая директория, после чего репозиторий клонируется с GitHub (git clone) .
Рот акцентирует внимание на важности использования виртуальных сред (команда conda create). По его словам, это «изолированное место», которое позволяет устанавливать зависимости проекта, не нарушая работу других программ на компьютере .
Технические требования и зависимости
После активации среды (conda activate) необходимо установить зависимости из файла requirements.txt . Этот файл автоматически подтягивает всё необходимое: эмуляторы Game Boy, инструменты обработки изображений и пакеты валидации данных . Также требуется установка Playwright для взаимодействия с браузерами в некоторых режимах игры .
🔴 Особенности запуска: ROM-файлы и авторские права 6:15
Одним из первых примеров в руководстве стал Pokemon Red. Для его запуска требуется файл образа игры — ROM с расширением .gb . Уэс Рот признает, что тема ROM-файлов юридически сложна: по его пониманию, если пользователь легально приобрел игру, он имеет право использовать её копию в эмуляторе, однако он призывает зрителей изучить этот вопрос самостоятельно или проконсультироваться в комментариях .
🛠 Управление процессом: Аргументы и модели 7:20
Запуск игр осуществляется через скрипт main.py с использованием различных аргументов командной строки. По словам автора, это напоминает запуск обычных .exe файлов, но с дополнительными инструкциями для интерпретатора Python .
Ключевые команды управления:
--game: Указывает конкретную игру (например,Doom2илиWarcraft2). Список доступных названий можно найти в папкеconfigsрепозитория .--model: Выбор модели. По умолчанию используется GPT-4o, но можно подключить любую модель через систему именования LiteLLM (например,gemini/gemini-2.0-flashилиanthropic/claude-3-5-sonnet) .--enable-ui: Критически важный аргумент для шутеров от первого лица (Doom, Quake). Без него программа может аварийно завершиться при попытке отрисовки интерфейса .
Для работы с проприетарными моделями необходимо настроить API-ключи. Рот отмечает, что процедура отличается для разных ОС: на Windows используется специальная команда установки переменной окружения, в то время как на Linux/Apple применяется export .
🔫 Демонстрация Doom 2: «ИИ зачистил комнату!» 11:53
В ходе живой демонстрации Doom 2 модель GPT-4o анализировала ситуацию в реальном времени под оригинальный саундтрек игры . ИИ получал скриншоты, распознавал уровень здоровья (например, 97%) и количество патронов.
Результаты заезда в Doom 2:
- ИИ получил системный промпт: «Уничтожить всех врагов перед продвижением дальше» .
- Модель успешно зачистила комнату от монстров, что Уэс Рот назвал «довольно впечатляющим» результатом .
- ИИ умеет отдавать команды перемещения (клавиши W, A, S, D) и стрельбы, хотя иногда «путается», считая, что в пустой комнате всё еще остались враги .
Существует также режим Light Mode. В этом режиме игра ставится на паузу, пока модель «думает» над следующим шагом, и снимается с паузы только в момент выполнения команды. Это позволяет менее быстрым моделям играть без риска быть убитыми во время вычислений .
🏰 Стратегии и логирование: Warcraft 2 и анализ действий 14:46
При тестировании Warcraft 2 Рот использовал модель Gemini 1.5 Pro через Google AI Studio . В стратегиях ИИ демонстрирует понимание контекста: он знает, что нужно строить бараки, добывать золото и рубить лес . Однако автор отмечает, что прогресс в стратегиях идет медленнее, чем в шутерах.
Для анализа работы ИИ предусмотрена система логов:
- Платформа сохраняет скриншоты игрового экрана и «монитор мыслей» ИИ .
- В папке
logsможно покадрово изучить, как модель принимала решения и что именно она видела в каждый момент времени . - Доступен «headless mode» (безголовый режим) для запуска тестов в фоновом режиме без вывода графики на экран пользователя .
В завершение Уэс Рот призвал сообщество делиться результатами своих запусков и пообещал поддержку в устранении неполадок через свой новый сабреддит AI Guild .