# Янник Кильхер о RIMs: «Это не мета-обучение, а разделение»

Источник: https://www.youtube.com/watch?v=kU-tWy_wr78
Канал: Yannic Kilcher
Опубликовано: 29.05.2021

---

## Эволюция обучения в глубоком обучении: быстрые и медленные механизмы

[[JUMP:00:01]]

В недавнем видео Янник Кильхер (Yannic Kilcher) разобрал научную работу, посвящённую усовершенствованию рекуррентных независимых механизмов (Recurrent Independent Mechanisms, RIMs). Авторы работы — Каника Мадан (Kanika Madan), Розмари Нанке (Rosemary Nancke), Анируд Гойал (Anirudh Goyal), Бернард Шелхофф (Bernhard Schölkopf) и Джошуа Бенджио (Yoshua Bengio) — предлагают методику раздельного обучения подсистем с разной временной шкалой для борьбы с катастрофическим забыванием в задачах обучения с подкреплением.

### Суть проблемы: катастрофическое забывание
[[JUMP:06:27]]

В традиционных архитектурах глубокого обучения с подкреплением агент представляет собой «единый чёрный ящик» — нейронную сеть, которая обновляет все свои параметры в ответ на каждый полученный сигнал вознаграждения. Однако в условиях многозадачности, когда агент должен переключаться между разными сценариями (например, найти ключ и открыть дверь, а затем съесть апельсин), происходит **катастрофическое забывание**:

*   При обучении решению новой задачи параметры сети меняются так, чтобы минимизировать потерю для текущей цели.
*   Из-за этого агент теряет способность эффективно выполнять предыдущие задачи, информация о которых перезаписывается.

### Решение: модульность и независимые механизмы
[[JUMP:08:11]]

Предыдущая работа авторов ввела понятие рекуррентных независимых механизмов (RIMs), где вместо единой сети используется набор небольших подмодулей. Каждый модуль специализируется на конкретной подзадаче (например, распознавание апельсина или поиск пути).

*   **Работа механизмов:** На каждом временном шаге активируется только подмножество модулей, релевантных текущей задаче.
*   **Изоляция:** Только активные модули получают сигнал обучения и обновляют свои параметры, тогда как неактивные остаются «замороженными», сохраняя накопленные знания.
*   **Коммуникация:** В конце шага модули могут обмениваться информацией через механизм внимания, что позволяет им координировать действия.

### Новый подход: двухступенчатое обучение
[[JUMP:21:26]]

Главный вклад текущей статьи заключается в предложении обновлять параметры модулей и параметры их выбора (адаптивного внимания) на разных временных шкалах.

1.  **Быстрое обучение (Fast Update):** Классическое обучение с подкреплением (PPO — Proximal Policy Optimization) для модулей внутри одного эпизода, где параметры внимания фиксированы.
2.  **Медленное обучение (Slow Update):** Обновление параметров внимания («мета-параметров») на основе более длинных «мета-последовательностей», охватывающих несколько задач.

По мнению Кильхера, авторы ошибочно называют этот подход «мета-обучением» (meta-learning). Он утверждает, что это скорее **разделение параметров (decoupling)**, аналогичное раздельному обучению дискриминатора и генератора в ранних версиях GAN, что позволяет избежать нестабильности при обучении взаимозависимых систем.

### Критический взгляд и эксперименты
[[JUMP:28:42]]

В экспериментах новая система демонстрирует способность к лучшему обобщению (zero-shot transfer) в более сложных условиях, чем стандартные RIMs или обычные рекуррентные сети. Однако Янник Кильхер критикует полноту исследования:

*   **Недостаток абляций:** Автор полагает, что в статье недостаточно глубоко исследовано, *почему* именно разделение на «быстрые» и «медленные» шаги даёт эффект.
*   **Сравнение с темпом обучения:** Предложенный метод сравнивается с простым уменьшением темпа обучения (learning rate) для параметров внимания, что, по мнению Кильхера, является некорректным сравнением, так как это принципиально разные механизмы.
*   **Фокус внимания:** По мнению Кильхера, авторы тратят слишком много места в статье на визуализацию работы модулей и функций ценности, что уже было известно из предыдущих работ по RIMs, вместо изучения влияния длительности «мета-эпизодов» или поиска оптимального количества активных модулей.

Кильхер резюмирует, что хотя идея разделения обучения в такой сложной среде, как RL, выглядит логичной и полезной, представленный «двухступенчатый подход» требует более фундаментального анализа для подтверждения эффективности.