Алгоритмы принятия решений: от MCTS до AlphaGo

Stanford Online 18,3 тыс. 1 ч 20 мин 3 мин 04.12.2024
Главное

Планирование и поиск стратегий в условиях неопределённости 0:05

Лекция Stanford Online по курсу AA228/CS238 посвящена методам онлайн-планирования и поиска стратегий (policy search) в задачах, где будущее состояние агента неопределенно. Ключевая концепция — различие между «офлайн» и «онлайн» планированием. Если офлайн-стратегии вычисляются заранее для всех возможных состояний, то онлайн-методы фокусируются на достижимом пространстве состояний «здесь и сейчас», используя схему планирования с «редеющим горизонтом» (receding horizon planning).

🧠 Концепции планирования 1:03

Спикер проводит аналогию с «мышлением системы 1 и системы 2» (по Даниэлю Канеману):

🛠 Методы онлайн-планирования 15:51

В лекции подробно разбираются несколько алгоритмов поиска:

  1. Lookahead with Rollouts: Использует «просмотр вперед» для оценки полезности стратегии через серию симуляций (rollouts).

    • Процесс: Для оценки состояния используется случайная или заранее обученная стохастическая стратегия, которая «проигрывает» ситуацию до глубины $D$.
    • Недостаток: Высокая вычислительная сложность при больших пространствах состояний.
  2. Forward Search: Построение полного дерева поиска всех возможных переходов.

    • Сложность: $O((S \times A)^D)$, где $S$ — состояния, $A$ — действия, $D$ — глубина. Спикер иронично называет этот фактор "SAD" (от S-A-D), так как дерево разрастается катастрофически быстро.
  3. Branch and Bound: Пытается сократить перебор, отсекая ветви дерева, которые математически не могут быть лучше уже найденного оптимального пути.

    • Условие отсечения: Если верхняя граница (upper bound) текущего действия хуже, чем уже найденная лучшая полезность (utility), ветвь обрезается.
  4. Sparse Sampling: Вместо ветвления по всем состояниям, алгоритм берет ограниченное число выборок (samples) переходов. Это снижает сложность до $m \times A^D$, делая поиск более управляемым, но привнося ошибку аппроксимации.

🎲 Monte Carlo Tree Search (MCTS) 34:47

MCTS — один из самых популярных и масштабируемых методов. Его работа делится на четыре фазы:

  1. Selection: Выбор перспективного действия с использованием стратегии Upper Confidence Bound (UCB), которая балансирует исследование новых путей и использование уже проверенных.
  2. Expansion: Выполнение действия и переход в новое состояние.
  3. Simulation: Оценка полезности состояния (часто через rollouts или нейросеть).
  4. Update: Обновление оценок (Q-функции и счетчиков посещений) вверх по дереву.

Пример с игрой 2048 показывает, что MCTS позволяет агенту «думать» перед ходом, имитируя поведение системы 2, что существенно эффективнее, чем просто полагаться на базовую нейросеть (система 1).

🧬 Гибридные подходы и поиск стратегий 62:44

В современных системах, таких как AlphaGo Zero, используются гибридные методы: обучение нейросети с помощью self-play и MCTS.

В разделе Policy Search обсуждаются методы оптимизации параметров стратегии ($\theta$) напрямую, без вычисления значений состояний.

💬 Цитаты

«Фактор S раз A в степени D звучит как 'SAD'. И это печальный фактор ветвления, потому что он взрывается.»

Преподаватель 32:33

«В MCTS, если вы используете upper confidence bound, вы принудительно выбираете действия, которые еще не пробовали.»

Преподаватель 39:48
👥 Спикер
📖 Термины
Receding Horizon Planning
Стратегия планирования, при которой агент строит план на ограниченную глубину, делает шаг и перепланирует заново.
MCTS
Метод поиска по дереву, который использует случайные симуляции для оценки перспективности ходов.
AlphaGo Zero
Алгоритм DeepMind, обучавшийся игре в Го через самоигру и планирование, достигнув уровня выше человеческого.
UCB (Upper Confidence Bound)
Формула для выбора действий, отдающая приоритет либо редко посещаемым вариантам, либо тем, что показали хороший результат ранее.
Rollout
Симуляция развития игры из текущего состояния до определенного момента с использованием заданной стратегии.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект AlphaGo Zero Monte Carlo Tree Search receding horizon planning policy search Sparse Sampling