Янник Кильхер: как научить алгоритмы ИИ «любопытству»?

Curiosity-driven Exploration: как научить ИИ любопытству 0:00

В видеоролике Янник Кильхер (Yannic Kilcher) подробно разбирает научную работу «Curiosity-driven Exploration by Self-supervised Prediction» (Исследование на основе любопытства через самообучаемое предсказание). Основная идея работы заключается в преодолении проблемы разреженной награды (sparse reward) в обучении с подкреплением, когда агент получает сигнал об успехе только в самом конце длительной последовательности действий. Для решения этой задачи авторы предлагают наделить ИИ «любопытством», заставляя его активно исследовать среду в поисках новых, труднопредсказуемых состояний.

Проблема разреженной награды 0:16

В классических задачах обучения с подкреплением, таких как игры в Super Mario или шахматы, агент часто сталкивается с отсутствием промежуточных сигналов успеха.

Суть проблемы: В игре Super Mario награда в +1 выдается только при прохождении уровня, а в случае поражения — −1. На протяжении десятков шагов агент не получает никакой обратной связи, что делает обучение крайне сложным, так как модели трудно связать текущие действия с далекой финальной целью.
Ограничения reward shaping: Обычно разработчики пытаются использовать «формирование награды» (reward shaping) — ручное введение дополнительных поощрений (например, за движение вправо или захват территории в шахматах). Однако, по мнению Кильхера, этот подход имеет существенные минусы:
1. Доменная специфичность: Для каждой новой задачи (Mario, шахматы, робототехника) приходится заново придумывать правила награждения.
2. Несовершенство: Дополнительные награды могут вступать в противоречие с основной целью, например, поощряя «жадное» движение вправо там, где нужно вернуться назад для обхода препятствия.

Модель любопытства: предсказание будущего 4:23

Авторы статьи предлагают альтернативу: использовать внутреннюю награду, основанную на любопытстве.

Принцип работы: У агента есть модуль, который пытается предсказать следующее состояние среды на основе текущего состояния и выбранного действия.
Интринсивная (внутренняя) награда: Если агент совершает действие и оказывается в состоянии, которое он не смог точно предсказать, это означает, что он столкнулся с чем-то новым и необычным. Высокая ошибка предсказания конвертируется в награду. Таким образом, агент стремится посещать те места, где его модель мира еще недостаточно точна, что стимулирует исследование.

Проблема «случайного шума» (проблема листьев) 10:08

Кильхер отмечает, что прямой подход предсказания пикселей на экране имеет критический изъян. Представим среду, где на дороге лежат листья, которые развеваются ветром.

Почему это мешает: Поскольку движение листьев случайно и не зависит от действий агента, он никогда не сможет их предсказать. Следовательно, ошибка предсказания всегда будет высокой, и агент будет «залипать» на листьях, бесконечно получая награду за свое «любопытство» к ним.
Решение — Encoder и Inverse Model: Чтобы игнорировать неконтролируемые факторы, авторы вводят специальный обучаемый энкодер.
1. Энкодер: Преобразует состояние среды в компактные признаки (features).
2. Инверсная модель: Параллельно с основным обучением, энкодер обучается предсказывать, какое именно действие привело к переходу из состояния А в состояние Б.
3. Результат: Благодаря этому энкодер «выучивает» только те аспекты среды, на которые агент может реально влиять своими действиями. «Листья» и прочий случайный шум при этом отсеиваются как нерелевантные признаки, так как они не несут информации о выборе действия.

Экспериментальные результаты 15:44

В работе продемонстрировано, что при сильной разреженности наград классические методы (например, A3C) перестают работать. В то же время метод ICM (Intrinsic Curiosity Module) эффективно справляется с исследованием.

Важность дизайна энкодера: Кильхер подчеркивает: если использовать любопытство, основанное на «сырых» пикселях без энкодера, агент всё равно провалится на крайне разреженных задачах из-за описанной выше проблемы с шумом.
Масштабируемость: Метод успешно применялся на различных бенчмарках и в задачах с лабиринтами, показывая высокую эффективность исследования среды без ручного конструирования наград.