MuZero: как нейросети учатся планировать без правил игры

MuZero: планирование с помощью обученной модели 0:00

Алгоритм MuZero, разработанный специалистами DeepMind, представляет собой значительный шаг вперед в области обучения с подкреплением. Этот подход является развитием знаменитого AlphaZero, который научился играть в Go и шахматы, соревнуясь исключительно с самим собой.

Основная инновация MuZero заключается в способности алгоритма самостоятельно формировать модель окружающей среды. В традиционных играх, таких как шахматы или Shogi, правила строго определены: каждый ход ведет к предсказуемому изменению конфигурации доски. Это позволяет системе использовать метод поиска по дереву (tree search), просчитывая все возможные варианты развития событий на много ходов вперед. Однако в других задачах, например, в играх Atari, такой «идеальный симулятор» отсутствует: игрок видит лишь текущий кадр экрана и не может с точностью предсказать, как именно изменится пиксельное пространство после нажатия кнопки.

Отказ от предсказания пикселей 4:36

Ранее попытки обучения модели среды сводились к попыткам предсказать следующий кадр (пиксельное состояние), что работало неэффективно из-за сложности визуальных данных. MuZero предлагает принципиально иной путь:

Алгоритм не пытается предсказать будущие кадры или всю среду целиком.
Вместо этого он предсказывает скрытое состояние (hidden state) — абстрактное представление, содержащее только ту информацию, которая необходима для принятия решений.
Из этого скрытого состояния модель прогнозирует ключевые для обучения с подкреплением параметры: вознаграждение (reward), стратегию действий (policy) и ценность состояния (value).

Как работает планирование в MuZero 6:17

Процесс обработки данных в MuZero выглядит как сложная последовательность нейронных сетей, где всё обучается «end-to-end»:

Кодирование: Наблюдение (кадр экрана или состояние доски) с помощью функции кодирования $H$ преобразуется в скрытое состояние.
Прогноз: Нейронная сеть делает два предсказания: ценность текущего состояния (насколько выгодно находиться здесь) и примерную стратегию действий (как бы агент действовал, если бы уже знал ответ).
Поиск: Используя функцию $G$, которая переводит текущее скрытое состояние и выбранное действие в следующее скрытое состояние, алгоритм выстраивает «дерево будущего».
Оптимизация: На концах веток дерева оценивается ценность состояний, что позволяет системе выбрать действие, ведущее к наиболее благоприятному исходу.

По словам ведущего Янника Кильхера, MuZero достигает уровня производительности AlphaZero в таких играх, как Go, даже не имея доступа к «идеальному симулятору» правил, а просто обучаясь в процессе. Более того, в тестах на играх Atari алгоритм показал результаты, превосходящие текущие state-of-the-art модели, такие как R2D2 или Impala.