# Янник Кильхер: как научить алгоритмы ИИ «любопытству»?

Источник: https://www.youtube.com/watch?v=_Z9ZP1eiKsI
Канал: Yannic Kilcher
Опубликовано: 18.03.2018

---

## Curiosity-driven Exploration: как научить ИИ любопытству
[[JUMP:0:00]]

В видеоролике Янник Кильхер (Yannic Kilcher) подробно разбирает научную работу «Curiosity-driven Exploration by Self-supervised Prediction» (Исследование на основе любопытства через самообучаемое предсказание). Основная идея работы заключается в преодолении проблемы разреженной награды (sparse reward) в обучении с подкреплением, когда агент получает сигнал об успехе только в самом конце длительной последовательности действий. Для решения этой задачи авторы предлагают наделить ИИ «любопытством», заставляя его активно исследовать среду в поисках новых, труднопредсказуемых состояний.

### Проблема разреженной награды
[[JUMP:0:16]]

В классических задачах обучения с подкреплением, таких как игры в Super Mario или шахматы, агент часто сталкивается с отсутствием промежуточных сигналов успеха.

* **Суть проблемы:** В игре Super Mario награда в +1 выдается только при прохождении уровня, а в случае поражения — −1. На протяжении десятков шагов агент не получает никакой обратной связи, что делает обучение крайне сложным, так как модели трудно связать текущие действия с далекой финальной целью.
* **Ограничения reward shaping:** Обычно разработчики пытаются использовать «формирование награды» (reward shaping) — ручное введение дополнительных поощрений (например, за движение вправо или захват территории в шахматах). Однако, по мнению Кильхера, этот подход имеет существенные минусы:
    1.  **Доменная специфичность:** Для каждой новой задачи (Mario, шахматы, робототехника) приходится заново придумывать правила награждения.
    2.  **Несовершенство:** Дополнительные награды могут вступать в противоречие с основной целью, например, поощряя «жадное» движение вправо там, где нужно вернуться назад для обхода препятствия.

### Модель любопытства: предсказание будущего
[[JUMP:4:23]]

Авторы статьи предлагают альтернативу: использовать внутреннюю награду, основанную на любопытстве.

* **Принцип работы:** У агента есть модуль, который пытается предсказать следующее состояние среды на основе текущего состояния и выбранного действия.
* **Интринсивная (внутренняя) награда:** Если агент совершает действие и оказывается в состоянии, которое он не смог точно предсказать, это означает, что он столкнулся с чем-то новым и необычным. Высокая ошибка предсказания конвертируется в награду. Таким образом, агент стремится посещать те места, где его модель мира еще недостаточно точна, что стимулирует исследование.

### Проблема «случайного шума» (проблема листьев)
[[JUMP:10:08]]

Кильхер отмечает, что прямой подход предсказания пикселей на экране имеет критический изъян. Представим среду, где на дороге лежат листья, которые развеваются ветром.

* **Почему это мешает:** Поскольку движение листьев случайно и не зависит от действий агента, он никогда не сможет их предсказать. Следовательно, ошибка предсказания всегда будет высокой, и агент будет «залипать» на листьях, бесконечно получая награду за свое «любопытство» к ним.
* **Решение — Encoder и Inverse Model:** Чтобы игнорировать неконтролируемые факторы, авторы вводят специальный обучаемый энкодер.
    1.  **Энкодер:** Преобразует состояние среды в компактные признаки (features).
    2.  **Инверсная модель:** Параллельно с основным обучением, энкодер обучается предсказывать, *какое именно действие* привело к переходу из состояния А в состояние Б.
    3.  **Результат:** Благодаря этому энкодер «выучивает» только те аспекты среды, на которые агент может реально влиять своими действиями. «Листья» и прочий случайный шум при этом отсеиваются как нерелевантные признаки, так как они не несут информации о выборе действия.

### Экспериментальные результаты
[[JUMP:15:44]]

В работе продемонстрировано, что при сильной разреженности наград классические методы (например, A3C) перестают работать. В то же время метод ICM (Intrinsic Curiosity Module) эффективно справляется с исследованием.

* **Важность дизайна энкодера:** Кильхер подчеркивает: если использовать любопытство, основанное на «сырых» пикселях без энкодера, агент всё равно провалится на крайне разреженных задачах из-за описанной выше проблемы с шумом.
* **Масштабируемость:** Метод успешно применялся на различных бенчмарках и в задачах с лабиринтами, показывая высокую эффективность исследования среды без ручного конструирования наград.