MuZero: как нейросети учатся планировать без правил игры

Yannic Kilcher 29,5 тыс. 18 мин 2 мин 21.11.2019
Главное

MuZero: планирование с помощью обученной модели 0:00

Алгоритм MuZero, разработанный специалистами DeepMind, представляет собой значительный шаг вперед в области обучения с подкреплением. Этот подход является развитием знаменитого AlphaZero, который научился играть в Go и шахматы, соревнуясь исключительно с самим собой.

Основная инновация MuZero заключается в способности алгоритма самостоятельно формировать модель окружающей среды. В традиционных играх, таких как шахматы или Shogi, правила строго определены: каждый ход ведет к предсказуемому изменению конфигурации доски. Это позволяет системе использовать метод поиска по дереву (tree search), просчитывая все возможные варианты развития событий на много ходов вперед. Однако в других задачах, например, в играх Atari, такой «идеальный симулятор» отсутствует: игрок видит лишь текущий кадр экрана и не может с точностью предсказать, как именно изменится пиксельное пространство после нажатия кнопки.

Отказ от предсказания пикселей 4:36

Ранее попытки обучения модели среды сводились к попыткам предсказать следующий кадр (пиксельное состояние), что работало неэффективно из-за сложности визуальных данных. MuZero предлагает принципиально иной путь:

Как работает планирование в MuZero 6:17

Процесс обработки данных в MuZero выглядит как сложная последовательность нейронных сетей, где всё обучается «end-to-end»:

  1. Кодирование: Наблюдение (кадр экрана или состояние доски) с помощью функции кодирования $H$ преобразуется в скрытое состояние.
  2. Прогноз: Нейронная сеть делает два предсказания: ценность текущего состояния (насколько выгодно находиться здесь) и примерную стратегию действий (как бы агент действовал, если бы уже знал ответ).
  3. Поиск: Используя функцию $G$, которая переводит текущее скрытое состояние и выбранное действие в следующее скрытое состояние, алгоритм выстраивает «дерево будущего».
  4. Оптимизация: На концах веток дерева оценивается ценность состояний, что позволяет системе выбрать действие, ведущее к наиболее благоприятному исходу.

По словам ведущего Янника Кильхера, MuZero достигает уровня производительности AlphaZero в таких играх, как Go, даже не имея доступа к «идеальному симулятору» правил, а просто обучаясь в процессе. Более того, в тестах на играх Atari алгоритм показал результаты, превосходящие текущие state-of-the-art модели, такие как R2D2 или Impala.

💬 Цитаты

«Суть в том, что вы предсказываете только то, что вам абсолютно необходимо для получения значений, важных для обучения с подкреплением.»

Янник Кильхер 05:34

«Это переносит обучение с подкреплением на новый уровень благодаря обучению на скрытых состояниях.»

Янник Кильхер 17:55
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Поиск по дереву (tree search)
Алгоритмический метод, при котором система просчитывает все возможные будущие состояния и варианты развития событий.
Модель среды (environment model)
Внутреннее представление правил игры или системы, позволяющее агенту делать прогнозы о последствиях своих действий.
Обучение с подкреплением (Reinforcement Learning)
Метод обучения ИИ, при котором агент учится принимать решения, получая награды или штрафы за свои действия.
⚖️ Другая сторона
Искусственный интеллект MuZero DeepMind AlphaZero Reinforcement Learning