# AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II

Источник: https://www.youtube.com/watch?v=BTLCdge7uSQ
Канал: Yannic Kilcher
Опубликовано: 02.11.2019

---

## Искусственный интеллект против профи: как AlphaStar покорил StarCraft II
[[JUMP:0:00]]

Янник Килхер разбирает прорывную работу DeepMind, опубликованную в журнале Nature. Статья описывает создание системы AlphaStar — агента с обучением с подкреплением (reinforcement learning), достигшего уровня Grandmaster в StarCraft II. Хотя Килхер критикует выбор Nature как площадки из-за отсутствия свободного доступа к публикации, техническая ценность работы остается выдающейся. Главный вклад исследователей заключается в использовании метода «лигового обучения» (League Training) для преодоления классических проблем нестабильности в многоагентных системах.

---

### 🕹 Что такое AlphaStar и StarCraft II
[[JUMP:1:44]]

StarCraft II — это сложная стратегия в реальном времени, требующая от игрока высокого уровня планирования и скорости реакции. Игра уникальна балансом трех рас:

*   **Terran:** люди, использующие технологии вроде морпехов и танков.
*   **Protoss:** высокоразвитая инопланетная раса, использующая энергетические щиты и телепортацию.
*   **Zerg:** органическая раса, распространяющаяся как болезнь.

По словам Килхера, обучение ИИ для такой игры — крайне сложная задача из-за огромного пространства действий: агенту необходимо анализировать экран, управлять экономикой (производством зданий и юнитов) и координировать армию с помощью клавиатуры и мыши.

### 🧠 Архитектура: от имитации к стратегии
[[JUMP:9:44]]

AlphaStar не является прямым продолжением AlphaGo, это модель обучения с подкреплением без использования моделей мира (model-free). Процесс обучения включает несколько уровней:

1.  **Супервайзинг (Supervised Learning):** на первом этапе агент учится имитировать действия профессиональных игроков, используя реальные данные. Это позволяет модели достичь уровня мастерства, превосходящего 85% обычных игроков.
2.  **Энкодеры:** данные с карты и список сущностей (юнитов) обрабатываются через отдельные нейронные сети: ResNet для визуальной информации и трансформеры для обработки набора сущностей.
3.  **Глубинная LSTM:** центральный элемент, отвечающий за запоминание контекста и планирование стратегии во времени, что критично при неполной наблюдаемости игры.
4.  **Политика и выбор действий:** после принятия решения о типе действия модель использует «сеть-указатель» (pointer network) для выбора конкретных юнитов, а затем определяет координаты цели с помощью деконволюционной ResNet,.

### 🏆 Лиговое обучение: главный секрет успеха
[[JUMP:21:53]]

Традиционное самообучение (self-play) часто приводит к цикличным стратегиям «камень-ножницы-бумага». Исследователи DeepMind внедрили систему лиг, чтобы сделать агентов устойчивыми ко всем типам стратегий:

*   **Основные агенты (Main Agents):** постоянно соревнуются друг с другом и с прошлыми версиями себя.
*   **Основные эксплуататоры (Main Exploiters):** обучаются исключительно поиску слабых мест текущих «основных агентов».
*   **Лиговые эксплуататоры (League Exploiters):** анализируют слабые стороны всей лиги в целом, заставляя «основных агентов» учиться контрить любые типы тактик.

Благодаря такой структуре, «основные агенты» развиваются, учась противодействовать практически любому сценарию, что в конечном итоге позволило им достичь уровня Grandmaster.

### 🧐 Критика и нюансы
[[JUMP:35:25]]

Несмотря на впечатляющий результат, Янник Килхер отмечает несколько спорных моментов:

*   **Неравные условия:** по мнению автора, преимущество AlphaStar заключается в способности «видеть» всех своих юнитов одновременно, даже вне зоны камеры, что недоступно человеку в том же объеме.
*   **Ограничение данных:** DeepMind не предоставила исходный код модели, ограничившись лишь псевдокодом, что, по мнению Килхера, ограничивает возможность независимой проверки результатов.
*   **Человеческий фактор:** даже при введении искусственных задержек и ограничений на количество действий в секунду, поведение машины остается «машинным» и не полностью имитирует физиологические ограничения профессионального игрока.