# Стэнфордский университет: как самообучение и MCTS сделали AlphaGo непобедимым

Источник: https://www.youtube.com/watch?v=UgANzoWc0nc
Канал: Stanford Online
Опубликовано: 30.10.2024

---

## 🧠 Интеллектуальный поиск и революция AlphaGo: как Reinforcement Learning меняет правила игры
[[JUMP:6:47]]

Современный искусственный интеллект совершил качественный скачок в решении задач, считавшихся ранее «неподъемными» для вычислительных систем. Одним из ярких примеров стала игра в го, где алгоритмы, разработанные компанией DeepMind, смогли победить профессиональных игроков на десятилетие раньше, чем предсказывали эксперты. В основе этого успеха лежит не просто наращивание вычислительных мощностей, а фундаментально иной подход к обучению с подкреплением (Reinforcement Learning) и поиску, ориентированному на конкретную вычислительную задачу.

### 🌳 Эволюция симуляционного поиска
[[JUMP:7:51]]

Традиционные методы обучения с подкреплением часто фокусировались на вычислении оптимальной политики для всего пространства состояний сразу. Однако в задачах с колоссальным количеством вариаций, таких как го или управление государственной монетарной политикой, такой подход оказывается неэффективным. 

Основные концепции, обсуждаемые в курсе Stanford CS234:

*   **Фокус на текущем состоянии:** Вместо попытки «объять необъятное» система направляет ресурсы на поиск максимально эффективного решения для текущей ситуации.
*   **Симуляция (Rollout):** Если известен динамический модел мира, агент может моделировать возможные последствия своих действий, выбирая те, что ведут к ожидаемому высокому вознаграждению.
*   **Деревья поиска:** Конструирование деревьев, подобных Expectimax, позволяет выполнять «резервное копирование» (backups) ожидаемых значений, однако при больших масштабах это ведет к экспоненциальному росту сложности.

Чтобы избежать «проклятия размерности», алгоритмы перешли к **Monte Carlo Tree Search (MCTS)**. Вместо полного перебора всех состояний, MCTS использует выборочное сэмплирование, что позволяет approximating (аппроксимировать) ожидания с помощью усреднения.

### 🎯 Upper Confidence Tree Search (UCT): стратегия в условиях неопределенности
[[JUMP:24:38]]

Одной из проблем чистого MCTS является поиск в пространствах с огромным количеством действий. Решением стал алгоритм **Upper Confidence Tree Search (UCT)**, который рассматривает каждый узел дерева как отдельную задачу «многорукого бандита».

Ключевые механизмы UCT:

1.  **Баланс исследования и эксплуатации:** Алгоритм поддерживает верхнюю доверительную границу (UCB) для каждого действия, отдавая приоритет тем, что обещают высокий возврат, но при этом не забывая исследовать менее изученные пути.
2.  **Несбалансированные деревья:** Система автоматически расширяет наиболее перспективные ветви, превращая поиск в высокоизбирательный «best-first search».
3.  **Параллелизация:** Поскольку процессы сэмплирования независимы, метод отлично поддается масштабированию на вычислительных кластерах.

### 🏆 Феномен AlphaGo и сила самообучения
[[JUMP:35:37]]

AlphaGo и ее преемники (AlphaZero, MuZero) продемонстрировали, что ИИ способен изобретать стратегии, превосходящие человеческие. По мнению исследователей, использование самообучения (self-play) в подобных играх создает уникальную динамику:

*   **Высокая плотность вознаграждения:** При игре с равным себе противником агент получает обратную связь почти в каждой партии, в отличие от игры с более сильным или слабым оппонентом, где сигнал обучения слаб.
*   **Автоматическая учебная программа:** Агенты «растут» вместе, постепенно повышая уровень сложности окружения.

### ⚙️ Технические инновации: от ResNet до двойных нейросетей
[[JUMP:50:50]]

AlphaZero совершила отказ от использования человеческих данных в пользу глубокого обучения с нуля. Современная архитектура этих систем включает:

*   **Двойные «головы» нейросети:** Одна нейросеть предсказывает и вероятность следующего хода (policy), и ценность текущего состояния (value).
*   **Роль архитектуры:** Переход от простых сверточных нейросетей к архитектурам типа ResNet с использованием «дуального представления» дал существенный прирост производительности — в некоторых тестах разница составляла от 3000 до 4500 единиц рейтинга.
*   **Важность последнего шага:** Даже при наличии мощной нейросети, выполнение поиска по дереву (MCTS) непосредственно во время игры остается критически важным для достижения максимального результата.