Теория игр: Minimax, Alpha-Beta и поиск оптимальной стратегии

Игры в пространстве состояний: стратегия, риск и поиск оптимальных решений 0:05

Лекция курса Stanford CS221, посвященная теории игр, завершает цикл изучения моделей на основе состояний. Ключевой особенностью игр, в отличие от Марковских процессов принятия решений (MDP), является наличие противника, чья стратегия неизвестна, что делает задачу поиска оптимальной политики более комплексной.

Понятие игры и игровое дерево 2:44

В теории игр центральным объектом является игровое дерево, где корень — это начальное состояние, а каждое ребро — возможное действие.

Игровой процесс: Каждый путь от корня к листу представляет собой «разыгрывание» игры (траекторию). На каждом узле решение принимает либо агент (стремящийся максимизировать полезность), либо противник.
Игры с нулевой суммой: В данном курсе рассматриваются игры для двух игроков, где полезность агента равна отрицательной полезности противника. Сумма их полезностей всегда равна нулю.
Формальное определение: Игра определяется стартовым состоянием, функцией окончания (isEnd), функцией определения хода игрока и функцией преемников, возвращающей доступные действия.
Разреженность вознаграждения: В играх вся полезность часто сосредоточена в конечном состоянии. Это создает проблему «разреженного вознаграждения» (sparse reward), когда промежуточные действия кажутся успешными, но ведут к проигрышу в конце.

Оценка игры и поиск оптимальной стратегии 11:06

Существует несколько подходов к анализу игр в зависимости от того, знаем ли мы стратегию противника.

Оценка игры: При фиксированных стратегиях агента и противника значение игры — это ожидаемая полезность по всем возможным исходам. Это вычисляется либо через симуляцию (метод Монте-Карло), либо через рекурсию, что требует экспоненциального времени.
Expected Max: Поиск оптимальной стратегии агента против фиксированной стратегии противника. Это аналогично итерации по значениям (value iteration) в MDP.
Minimax (Минимакс): Основной принцип игр, где стратегия противника неизвестна. Мы предполагаем, что противник играет идеально и стремится минимизировать полезность агента. Агент максимизирует значение на своих ходах, а противник минимизирует — на своих.

Теория совершенной игры 33:16

Когда оба игрока действуют оптимально, это называется «совершенной игрой» (perfect play).

Решенные игры: Если результат игры при совершенной игре известен, она считается «решенной» (solved).
Типы решений:
- Сильно решенные: Известны значения минимакса для каждого состояния (например, крестики-нолики, Connect 4).
- Слабо решенные: Известен результат только из начальной позиции.
- Нерешенные: Шахматы и Го остаются нерешенными, несмотря на превосходство компьютеров над людьми, так как мы не знаем минимаксное значение каждой позиции.

Методы оптимизации: Alpha-Beta Pruning и эвристики 52:16

Поскольку поиск в игровом дереве требует экспоненциального времени, применяются методы ускорения.

Alpha-Beta Pruning: Классическая техника, позволяющая не посещать узлы, которые гарантированно не повлияют на итоговое решение. Используются границы: alpha (нижняя граница для max-узлов) и beta (верхняя граница для min-узлов). Если интервалы не пересекаются, ветвь отсекается.
Порядок обхода: Эффективность отсечения зависит от порядка исследования преемников. Лучше сначала проверять действия, которые, скорее всего, изменят значение узла.
Оценочные функции (Evaluation Functions): Позволяют прервать поиск на определенной глубине (depth-limited search) и оценить состояние эвристически, не доходя до листа.