Мартин Шмид о Player of Games: „Универсальный алгоритм для любой игры“

Yannic Kilcher 18,8 тыс. 54 мин 3 мин 02.01.2022
Главное

Player of Games: Универсальный алгоритм для игр с любой информацией 0:00

Алгоритм Player of Games, разработанный исследователями DeepMind, представляет собой значительный шаг к созданию универсального искусственного интеллекта, способного эффективно играть в игры как с полной, так и с неполной информацией. В интервью ведущий канала Yannic Kilcher обсуждает с Мартином Шмидом, первым автором одноимённой статьи, как их разработка объединяет методы поиска в дереве игры, заимствованные из AlphaZero, и алгоритмы для работы с неопределённостью, такие как counterfactual regret minimization. Главная идея проекта — создать алгоритм, не требующий ручной подстройки под конкретные правила игры, а способный обучаться «с нуля» через самоигру.

🎮 Преодоление барьера неполной информации 0:41

В отличие от классических игр вроде шахмат или го, где вся информация о состоянии доски доступна игрокам, игры с неполной информацией (например, покер или Scotland Yard) скрывают часть данных от участников.

Шмид отмечает, что оптимальная стратегия в таких играх требует рандомизации действий — если игрок будет предсказуем, противник легко его обыграет.

🧠 Архитектура: синтез AlphaZero и DeepStack 8:14

Player of Games объединяет два фундаментальных подхода: мощный поиск AlphaZero и достижения DeepStack, который первым победил профессиональных игроков в безлимитный покер.

🏆 Результаты и ограничения 34:43

Хотя Player of Games не стремится превзойти специализированные алгоритмы в каждой конкретной игре, он демонстрирует впечатляющую генеральную способность.

Тем не менее, у алгоритма есть два существенных ограничения:

  1. Проблема масштабирования: Если размер «приватного состояния» (например, количество комбинаций карт) слишком велик, дерево игры взрывается, и алгоритм теряет эффективность.
  2. Зависимость от модели: В текущем виде для работы алгоритма требуется точная модель правил игры (симулятор), в отличие от алгоритма MuZero, который обучается в латентном пространстве.

Мартин Шмид подчёркивает, что конечная мечта исследователей в DeepMind — создание алгоритма, которому «всё равно», в какую среду его поместили, будь то Atari, робототехника или ответы на вопросы, однако до полной реализации этого видения предстоит ещё долгий путь.

💬 Цитаты

«Это алгоритм, который объединяет... шахматы и го, но выходит за их пределы — к покеру и Scotland Yard.»

Янник Килчер 0:28

«Результаты показывают, что алгоритм делает ставку на универсальность, а не на то, чтобы стать лучшим шахматным агентом в мире.»

Мартин Шмид 35:23
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Public State
Информация, доступная всем игрокам в любой момент времени.
Counterfactual Regret Minimization
Алгоритм, итеративно улучшающий стратегию в играх с неполной информацией.
Self-play
Метод обучения ИИ, при котором алгоритм играет против самого себя.
Sub-game
Локальная часть дерева игры, для которой ищется оптимальное решение.
Inference time
Время, когда модель выполняет поиск для принятия конкретного хода.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Player of Games DeepMind Martin Schmid AlphaZero DeepStack