Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

Yannic Kilcher 9,7 тыс. 45 мин 3 мин 29.05.2021
Главное

Эволюция обучения в глубоком обучении: быстрые и медленные механизмы 0:01

В недавнем видео Янник Кильхер (Yannic Kilcher) разобрал научную работу, посвящённую усовершенствованию рекуррентных независимых механизмов (Recurrent Independent Mechanisms, RIMs). Авторы работы — Каника Мадан (Kanika Madan), Розмари Нанке (Rosemary Nancke), Анируд Гойал (Anirudh Goyal), Бернард Шелхофф (Bernhard Schölkopf) и Джошуа Бенджио (Yoshua Bengio) — предлагают методику раздельного обучения подсистем с разной временной шкалой для борьбы с катастрофическим забыванием в задачах обучения с подкреплением.

Суть проблемы: катастрофическое забывание 6:27

В традиционных архитектурах глубокого обучения с подкреплением агент представляет собой «единый чёрный ящик» — нейронную сеть, которая обновляет все свои параметры в ответ на каждый полученный сигнал вознаграждения. Однако в условиях многозадачности, когда агент должен переключаться между разными сценариями (например, найти ключ и открыть дверь, а затем съесть апельсин), происходит катастрофическое забывание:

Решение: модульность и независимые механизмы 8:11

Предыдущая работа авторов ввела понятие рекуррентных независимых механизмов (RIMs), где вместо единой сети используется набор небольших подмодулей. Каждый модуль специализируется на конкретной подзадаче (например, распознавание апельсина или поиск пути).

Новый подход: двухступенчатое обучение 21:26

Главный вклад текущей статьи заключается в предложении обновлять параметры модулей и параметры их выбора (адаптивного внимания) на разных временных шкалах.

  1. Быстрое обучение (Fast Update): Классическое обучение с подкреплением (PPO — Proximal Policy Optimization) для модулей внутри одного эпизода, где параметры внимания фиксированы.
  2. Медленное обучение (Slow Update): Обновление параметров внимания («мета-параметров») на основе более длинных «мета-последовательностей», охватывающих несколько задач.

По мнению Кильхера, авторы ошибочно называют этот подход «мета-обучением» (meta-learning). Он утверждает, что это скорее разделение параметров (decoupling), аналогичное раздельному обучению дискриминатора и генератора в ранних версиях GAN, что позволяет избежать нестабильности при обучении взаимозависимых систем.

Критический взгляд и эксперименты 28:42

В экспериментах новая система демонстрирует способность к лучшему обобщению (zero-shot transfer) в более сложных условиях, чем стандартные RIMs или обычные рекуррентные сети. Однако Янник Кильхер критикует полноту исследования:

Кильхер резюмирует, что хотя идея разделения обучения в такой сложной среде, как RL, выглядит логичной и полезной, представленный «двухступенчатый подход» требует более фундаментального анализа для подтверждения эффективности.

💬 Цитаты

«Я не согласен называть это мета-обучением.»

Янник Кильхер 02:39

«Обучение с подкреплением и так достаточно жестокая вещь.»

Янник Кильхер 44:17
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RIMs
Архитектура нейронных сетей, состоящая из независимых подмодулей, специализирующихся на разных задачах.
Катастрофическое забывание
Явление, при котором нейронная сеть при изучении новой задачи полностью теряет знания, накопленные при изучении предыдущих.
PPO
Алгоритм обучения с подкреплением, который оптимизирует политику агента, ограничивая размер шагов обновления.
Zero-shot transfer
Способность модели выполнять задачу без предварительного обучения на ней.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Recurrent Independent Mechanisms Reinforcement Learning Catastrophic Forgetting Yannic Kilcher Joshua Bengio