# MuZero: как нейросети учатся планировать без правил игры

Источник: https://www.youtube.com/watch?v=We20YSAJZSE
Канал: Yannic Kilcher
Опубликовано: 21.11.2019

---

## MuZero: планирование с помощью обученной модели
[[JUMP:0:00]]

Алгоритм MuZero, разработанный специалистами DeepMind, представляет собой значительный шаг вперед в области обучения с подкреплением. Этот подход является развитием знаменитого AlphaZero, который научился играть в Go и шахматы, соревнуясь исключительно с самим собой.

Основная инновация MuZero заключается в способности алгоритма самостоятельно формировать модель окружающей среды. В традиционных играх, таких как шахматы или Shogi, правила строго определены: каждый ход ведет к предсказуемому изменению конфигурации доски. Это позволяет системе использовать метод поиска по дереву (tree search), просчитывая все возможные варианты развития событий на много ходов вперед. Однако в других задачах, например, в играх Atari, такой «идеальный симулятор» отсутствует: игрок видит лишь текущий кадр экрана и не может с точностью предсказать, как именно изменится пиксельное пространство после нажатия кнопки.

### Отказ от предсказания пикселей
[[JUMP:4:36]]

Ранее попытки обучения модели среды сводились к попыткам предсказать следующий кадр (пиксельное состояние), что работало неэффективно из-за сложности визуальных данных. MuZero предлагает принципиально иной путь:

* Алгоритм не пытается предсказать будущие кадры или всю среду целиком.
* Вместо этого он предсказывает скрытое состояние (hidden state) — абстрактное представление, содержащее только ту информацию, которая необходима для принятия решений.
* Из этого скрытого состояния модель прогнозирует ключевые для обучения с подкреплением параметры: вознаграждение (reward), стратегию действий (policy) и ценность состояния (value).

### Как работает планирование в MuZero
[[JUMP:6:17]]

Процесс обработки данных в MuZero выглядит как сложная последовательность нейронных сетей, где всё обучается «end-to-end»:

1.  **Кодирование:** Наблюдение (кадр экрана или состояние доски) с помощью функции кодирования $H$ преобразуется в скрытое состояние.
2.  **Прогноз:** Нейронная сеть делает два предсказания: ценность текущего состояния (насколько выгодно находиться здесь) и примерную стратегию действий (как бы агент действовал, если бы уже знал ответ).
3.  **Поиск:** Используя функцию $G$, которая переводит текущее скрытое состояние и выбранное действие в следующее скрытое состояние, алгоритм выстраивает «дерево будущего».
4.  **Оптимизация:** На концах веток дерева оценивается ценность состояний, что позволяет системе выбрать действие, ведущее к наиболее благоприятному исходу.

По словам ведущего Янника Кильхера, MuZero достигает уровня производительности AlphaZero в таких играх, как Go, даже не имея доступа к «идеальному симулятору» правил, а просто обучаясь в процессе. Более того, в тестах на играх Atari алгоритм показал результаты, превосходящие текущие state-of-the-art модели, такие как R2D2 или Impala.