AlphaStar: как ИИ достиг уровня Grandmaster в StarCraft II

Yannic Kilcher 23,5 тыс. 37 мин 2 мин 02.11.2019
Главное

Искусственный интеллект против профи: как AlphaStar покорил StarCraft II 0:00

Янник Килхер разбирает прорывную работу DeepMind, опубликованную в журнале Nature. Статья описывает создание системы AlphaStar — агента с обучением с подкреплением (reinforcement learning), достигшего уровня Grandmaster в StarCraft II. Хотя Килхер критикует выбор Nature как площадки из-за отсутствия свободного доступа к публикации, техническая ценность работы остается выдающейся. Главный вклад исследователей заключается в использовании метода «лигового обучения» (League Training) для преодоления классических проблем нестабильности в многоагентных системах.


🕹 Что такое AlphaStar и StarCraft II 1:44

StarCraft II — это сложная стратегия в реальном времени, требующая от игрока высокого уровня планирования и скорости реакции. Игра уникальна балансом трех рас:

По словам Килхера, обучение ИИ для такой игры — крайне сложная задача из-за огромного пространства действий: агенту необходимо анализировать экран, управлять экономикой (производством зданий и юнитов) и координировать армию с помощью клавиатуры и мыши.

🧠 Архитектура: от имитации к стратегии 9:44

AlphaStar не является прямым продолжением AlphaGo, это модель обучения с подкреплением без использования моделей мира (model-free). Процесс обучения включает несколько уровней:

  1. Супервайзинг (Supervised Learning): на первом этапе агент учится имитировать действия профессиональных игроков, используя реальные данные. Это позволяет модели достичь уровня мастерства, превосходящего 85% обычных игроков.
  2. Энкодеры: данные с карты и список сущностей (юнитов) обрабатываются через отдельные нейронные сети: ResNet для визуальной информации и трансформеры для обработки набора сущностей.
  3. Глубинная LSTM: центральный элемент, отвечающий за запоминание контекста и планирование стратегии во времени, что критично при неполной наблюдаемости игры.
  4. Политика и выбор действий: после принятия решения о типе действия модель использует «сеть-указатель» (pointer network) для выбора конкретных юнитов, а затем определяет координаты цели с помощью деконволюционной ResNet,.

🏆 Лиговое обучение: главный секрет успеха 21:53

Традиционное самообучение (self-play) часто приводит к цикличным стратегиям «камень-ножницы-бумага». Исследователи DeepMind внедрили систему лиг, чтобы сделать агентов устойчивыми ко всем типам стратегий:

Благодаря такой структуре, «основные агенты» развиваются, учась противодействовать практически любому сценарию, что в конечном итоге позволило им достичь уровня Grandmaster.

🧐 Критика и нюансы 35:25

Несмотря на впечатляющий результат, Янник Килхер отмечает несколько спорных моментов:

💬 Цитаты

«Это все — пиар-акция DeepMind, потому что Nature имеет большой вес в последние десятилетия.»

Янник Килхер 0:53

«AlphaStar — это классическое обучение с подкреплением, и с человеческими данными можно зайти очень далеко.»

Янник Килхер 9:05
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (обучение с подкреплением)
Метод машинного обучения, где агент учится принимать решения, получая награду или штраф за свои действия в среде.
LSTM (Long Short-Term Memory)
Тип рекуррентной нейронной сети, способный «запоминать» информацию на длительных временных интервалах.
Pointer Network
Нейросетевая архитектура, способная выбирать элемент из входного набора данных, что идеально подходит для выбора юнитов в игре.
Ablation study (аблативный анализ)
Исследование, при котором удаляются отдельные компоненты системы, чтобы понять их вклад в общую эффективность.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект AlphaStar StarCraft II DeepMind reinforcement learning