Янник Кильхер: как научить алгоритмы ИИ «любопытству»?

Yannic Kilcher 9,4 тыс. 17 мин 3 мин 18.03.2018
Главное

Curiosity-driven Exploration: как научить ИИ любопытству 0:00

В видеоролике Янник Кильхер (Yannic Kilcher) подробно разбирает научную работу «Curiosity-driven Exploration by Self-supervised Prediction» (Исследование на основе любопытства через самообучаемое предсказание). Основная идея работы заключается в преодолении проблемы разреженной награды (sparse reward) в обучении с подкреплением, когда агент получает сигнал об успехе только в самом конце длительной последовательности действий. Для решения этой задачи авторы предлагают наделить ИИ «любопытством», заставляя его активно исследовать среду в поисках новых, труднопредсказуемых состояний.

Проблема разреженной награды 0:16

В классических задачах обучения с подкреплением, таких как игры в Super Mario или шахматы, агент часто сталкивается с отсутствием промежуточных сигналов успеха.

Модель любопытства: предсказание будущего 4:23

Авторы статьи предлагают альтернативу: использовать внутреннюю награду, основанную на любопытстве.

Проблема «случайного шума» (проблема листьев) 10:08

Кильхер отмечает, что прямой подход предсказания пикселей на экране имеет критический изъян. Представим среду, где на дороге лежат листья, которые развеваются ветром.

Экспериментальные результаты 15:44

В работе продемонстрировано, что при сильной разреженности наград классические методы (например, A3C) перестают работать. В то же время метод ICM (Intrinsic Curiosity Module) эффективно справляется с исследованием.

💬 Цитаты

«Если у вас нет награды, вы хотите, чтобы ваш алгоритм просто ходил и исследовал.»

Янник Кильхер 07:11

«Ошибка предсказания означает, что произошло что-то новое, чего вы не ожидали.»

Янник Кильхер 06:45
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Разреженная награда (Sparse Reward)
Ситуация, когда агент получает сигнал об успехе крайне редко, что затрудняет обучение.
Reward Shaping
Ручное проектирование дополнительных промежуточных наград для облегчения обучения агента.
Интринсивная (внутренняя) награда
Награда, которую агент генерирует для самого себя на основе внутренних критериев, например, любопытства.
Инверсная модель (Inverse Model)
Модель, обучающаяся определять, какое действие совершил агент, чтобы попасть из одного состояния в другое.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Intrinsic Curiosity Module Sparse Reward Yannic Kilcher