EfficientZero: как ИИ учится играть в Atari почти без данных

Yannic Kilcher 25,8 тыс. 29 мин 3 мин 03.11.2021
Главное

Эффективность в условиях дефицита: EfficientZero меняет правила игры в Atari 0:00

Исследователи представили модель EfficientZero, способную достигать высокого уровня мастерства в играх Atari при критически ограниченных объемах данных. Автором этой работы выступила группа ученых (Liu, Kurotouch, Pietrabil, Gao), сосредоточившаяся на преодолении барьеров, с которыми сталкиваются современные алгоритмы обучения с подкреплением (Reinforcement Learning, RL).

Ключевым вызовом для проекта стал бенчмарк Atari 100k, предполагающий обучение модели на данных объемом всего в 100 тысяч переходов — это эквивалент примерно двух дней реального игрового времени. По мнению Янника Килхера (Yannic Kilcher), автора популярного канала о машинном обучении, EfficientZero не просто превосходит другие RL-алгоритмы в этом режиме, но и демонстрирует производительность, сопоставимую с DQN при использовании в 500 раз большего объема данных.

🎮 Фундамент: от AlphaZero к MuZero 2:31

Чтобы понять суть улучшений EfficientZero, необходимо вспомнить работу его предшественника — MuZero. В классическом RL-подходе агент взаимодействует со средой, получая наблюдения и награды, чтобы максимизировать итоговый выигрыш.

MuZero совершил прорыв, отказавшись от жесткой привязки к модели среды. Вместо этого он обучается «латентной модели» — он переводит наблюдения в скрытое состояние (hidden state) и предсказывает будущее скрытое состояние, награду и значение (value) лишь на основе сигналов, полученных из среды.

🛠 Три кита эффективности: почему MuZero не хватало данных 10:51

Килхер отмечает, что авторы EfficientZero выделили три критических слабых места в архитектуре MuZero:

  1. Недостаточный надзор (Supervision) за моделью среды: Модель учится исключительно на «редких» сигналах наград и значений, что крайне затратно по данным.
  2. Проблема накопления ошибок (Aleatoric uncertainty): При поиске по дереву предсказания наград на каждом шаге содержат погрешность, которая при суммировании по глубине дерева превращается в огромную ошибку.
  3. Проблемы «off-policy» обучения: Использование данных, сгенерированных старыми версиями нейросети, снижает точность обучения, так как текущая политика уже ушла вперед.

🚀 Технические улучшения: как работает EfficientZero 14:13

Для решения этих проблем авторы внедрили три ключевых изменения:

⚖️ Анализ и выводы: прорыв или подстройка под бенчмарк? 25:52

Результаты исследований показывают значительный рост качества обучения. Однако Килхер обращает внимание на важный нюанс: в ходе тестов не удалось выявить единственную «серебряную пулю» среди трех улучшений. Для разных игр Atari критически важными оказываются разные механизмы.

По мнению Килхера, это создает определенный риск «переинжиниринга» (over-engineering) алгоритма под конкретный бенчмарк, вместо создания универсально эффективного метода. Тем не менее, он полагает, что EfficientZero — это амбициозный шаг вперед, и работа выглядит многообещающе, хотя для подтверждения статуса «стандартного» алгоритма для эффективного RL потребуются дополнительные испытания на других наборах задач, например, DeepMind Control Suite.

💬 Цитаты

«Мы хотим оптимизировать награду, и нам на самом деле не важно, если что-то где-то неконсистентно.»

Янник Килхер 17:31

«Это не метод, выведенный из принципов; они посмотрели, что не работает, и исправили основные ошибки по одной.»

Янник Килхер 28:20
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (обучение с подкреплением)
Метод машинного обучения, где агент учится принимать решения, взаимодействуя со средой для максимизации награды.
Atari 100k
Бенчмарк для тестирования RL-алгоритмов, ограничивающий количество данных для обучения до 100 тысяч игровых переходов.
Латентная модель
Внутреннее представление среды, которое строит модель, чтобы предсказывать последствия своих действий без доступа к полному симулятору.
Monte Carlo Tree Search (MCTS)
Алгоритм поиска по дереву состояний, который позволяет прогнозировать оптимальные ходы в стратегических играх.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект EfficientZero Atari Reinforcement Learning