Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

Эволюция обучения в глубоком обучении: быстрые и медленные механизмы 0:01

В недавнем видео Янник Кильхер (Yannic Kilcher) разобрал научную работу, посвящённую усовершенствованию рекуррентных независимых механизмов (Recurrent Independent Mechanisms, RIMs). Авторы работы — Каника Мадан (Kanika Madan), Розмари Нанке (Rosemary Nancke), Анируд Гойал (Anirudh Goyal), Бернард Шелхофф (Bernhard Schölkopf) и Джошуа Бенджио (Yoshua Bengio) — предлагают методику раздельного обучения подсистем с разной временной шкалой для борьбы с катастрофическим забыванием в задачах обучения с подкреплением.

Суть проблемы: катастрофическое забывание 6:27

В традиционных архитектурах глубокого обучения с подкреплением агент представляет собой «единый чёрный ящик» — нейронную сеть, которая обновляет все свои параметры в ответ на каждый полученный сигнал вознаграждения. Однако в условиях многозадачности, когда агент должен переключаться между разными сценариями (например, найти ключ и открыть дверь, а затем съесть апельсин), происходит катастрофическое забывание:

При обучении решению новой задачи параметры сети меняются так, чтобы минимизировать потерю для текущей цели.
Из-за этого агент теряет способность эффективно выполнять предыдущие задачи, информация о которых перезаписывается.

Решение: модульность и независимые механизмы 8:11

Предыдущая работа авторов ввела понятие рекуррентных независимых механизмов (RIMs), где вместо единой сети используется набор небольших подмодулей. Каждый модуль специализируется на конкретной подзадаче (например, распознавание апельсина или поиск пути).

Работа механизмов: На каждом временном шаге активируется только подмножество модулей, релевантных текущей задаче.
Изоляция: Только активные модули получают сигнал обучения и обновляют свои параметры, тогда как неактивные остаются «замороженными», сохраняя накопленные знания.
Коммуникация: В конце шага модули могут обмениваться информацией через механизм внимания, что позволяет им координировать действия.

Новый подход: двухступенчатое обучение 21:26

Главный вклад текущей статьи заключается в предложении обновлять параметры модулей и параметры их выбора (адаптивного внимания) на разных временных шкалах.

Быстрое обучение (Fast Update): Классическое обучение с подкреплением (PPO — Proximal Policy Optimization) для модулей внутри одного эпизода, где параметры внимания фиксированы.
Медленное обучение (Slow Update): Обновление параметров внимания («мета-параметров») на основе более длинных «мета-последовательностей», охватывающих несколько задач.

По мнению Кильхера, авторы ошибочно называют этот подход «мета-обучением» (meta-learning). Он утверждает, что это скорее разделение параметров (decoupling), аналогичное раздельному обучению дискриминатора и генератора в ранних версиях GAN, что позволяет избежать нестабильности при обучении взаимозависимых систем.

Критический взгляд и эксперименты 28:42

В экспериментах новая система демонстрирует способность к лучшему обобщению (zero-shot transfer) в более сложных условиях, чем стандартные RIMs или обычные рекуррентные сети. Однако Янник Кильхер критикует полноту исследования:

Недостаток абляций: Автор полагает, что в статье недостаточно глубоко исследовано, почему именно разделение на «быстрые» и «медленные» шаги даёт эффект.
Сравнение с темпом обучения: Предложенный метод сравнивается с простым уменьшением темпа обучения (learning rate) для параметров внимания, что, по мнению Кильхера, является некорректным сравнением, так как это принципиально разные механизмы.
Фокус внимания: По мнению Кильхера, авторы тратят слишком много места в статье на визуализацию работы модулей и функций ценности, что уже было известно из предыдущих работ по RIMs, вместо изучения влияния длительности «мета-эпизодов» или поиска оптимального количества активных модулей.

Кильхер резюмирует, что хотя идея разделения обучения в такой сложной среде, как RL, выглядит логичной и полезной, представленный «двухступенчатый подход» требует более фундаментального анализа для подтверждения эффективности.