Теория игр: Minimax, Alpha-Beta и поиск оптимальной стратегии

Stanford Online 691 1 ч 13 мин 2 мин 09.03.2026
Главное

Игры в пространстве состояний: стратегия, риск и поиск оптимальных решений 0:05

Лекция курса Stanford CS221, посвященная теории игр, завершает цикл изучения моделей на основе состояний. Ключевой особенностью игр, в отличие от Марковских процессов принятия решений (MDP), является наличие противника, чья стратегия неизвестна, что делает задачу поиска оптимальной политики более комплексной.

Понятие игры и игровое дерево 2:44

В теории игр центральным объектом является игровое дерево, где корень — это начальное состояние, а каждое ребро — возможное действие.

Оценка игры и поиск оптимальной стратегии 11:06

Существует несколько подходов к анализу игр в зависимости от того, знаем ли мы стратегию противника.

Теория совершенной игры 33:16

Когда оба игрока действуют оптимально, это называется «совершенной игрой» (perfect play).

Методы оптимизации: Alpha-Beta Pruning и эвристики 52:16

Поскольку поиск в игровом дереве требует экспоненциального времени, применяются методы ускорения.

💬 Цитаты

«Проблема игр в том, что ваша стратегия должна зависеть от того, что собирается делать противник.»

«Минимаксное значение состояния — это ожидаемая полезность для агента при условии, что он и противник играют оптимально.»

👥 Спикер
📖 Термины
Игра с нулевой суммой
Игра, в которой выигрыш одного игрока в точности равен проигрышу другого.
Minimax
Алгоритм поиска, где один игрок максимизирует выигрыш, а другой минимизирует его.
Alpha-Beta Pruning
Метод оптимизации, позволяющий сократить количество узлов при поиске, отсекая неперспективные ветви.
Sparse reward
Ситуация, когда вознаграждение агент получает только в самом конце игры.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Minimax Alpha-Beta Pruning Game Tree Reinforcement Learning