# Янник Кильхер: «Активные дендриты позволяют нейросетям учиться, не забывая старое»

Источник: https://www.youtube.com/watch?v=O_dJ31T01i8
Канал: Yannic Kilcher
Опубликовано: 18.03.2022

---

В новом видео Янник Кильхер разбирает научную работу исследователей из Numenta, Корнеллского и Стэнфордского университетов, посвященную проблеме «катастрофического забывания» в нейросетях. Автор объясняет, как заимствование биологических механизмов — активных дендритов и разреженности активаций — позволяет искусственным нейронам эффективно обучаться множеству задач последовательно, не стирая при этом ранее полученные знания.

## 🧠 Проблема «катастрофического забывания» в глубоком обучении
[[JUMP:01:18]]

Одной из фундаментальных проблем современных искусственных нейронных сетей (ANN) является так называемое катастрофическое забывание (catastrophic forgetting) [01:58]. Когда сеть обучается нескольким задачам последовательно, новые градиенты начинают конфликтовать со старыми весами. В результате нейросеть либо не может выучить новую задачу из-за интерференции, либо полностью «стирает» знания о предыдущих [02:24].

Янник Кильхер выделяет два основных сценария, в которых эта проблема проявляется наиболее остро:

*   **Мультизадачное обучение с подкреплением (Multi-task RL):** Агент находится в среде, где ему нужно выполнять разные действия (например, роборука должна то схватить предмет, то нажать кнопку) [04:07]. Градиенты от разных задач часто тянут веса в противоположных направлениях, что мешает стабильному обучению [05:12].
*   **Непрерывное обучение (Continual Learning):** Сети предъявляются задачи одна за другой (например, сначала классификация кошек и собак, затем — коров и бобров) [06:04]. Без специальных механизмов веса, настроенные под первую задачу, просто перезаписываются данными второй [08:42].

В качестве примера в статье рассматривается набор данных **Permuted MNIST** [06:29]. Это модификация классического MNIST, где для каждой новой задачи пиксели изображения перемешиваются по-новому. Для обычной полносвязной сети каждая такая перестановка — это совершенно новая задача, требующая перестройки весов [07:24].

## 🌿 Биологическое вдохновение: пирамидальные нейроны
[[JUMP:09:33]]

Современная модель искусственного нейрона (сумма входов, умноженных на веса, плюс нелинейность) практически не менялась десятилетиями. Однако, как отмечает Янник Кильхер, она упускает важные аспекты биологии [10:27]. В статье предлагается вернуться к структуре пирамидальных нейронов неокортекса.

Ключевые отличия биологического нейрона, упомянутые в обзоре:

*   **Разделение входов:** Существуют проксимальные входы (близкие к телу клетки), которые действуют линейно, как в классических ИИ-моделях, и дистальные входы (дендриты), расположенные дальше [11:30].
*   **Активные дендриты:** Дистальные дендриты работают как независимые вычислительные единицы. Если сигнал на таком дендрите достигает порога, возникает «дендритный спайк» [15:38].
*   **Модуляция, а не суммация:** Дендритный спайк не заставляет нейрон немедленно сработать, а «подготавливает» его (деполяризует), снижая порог активации на длительное время (до полусекунды) [16:03]. Это позволяет контекстуальным сигналам модулировать реакцию нейрона на основные данные [16:15].
*   **Разреженность (Sparsity):** В биологическом мозге одновременно активно очень малое количество нейронов. По мнению авторов, это гарантирует, что векторы разных сущностей будут иметь минимальное перекрытие, что снижает риск интерференции между задачами [17:47].

## 🏗️ Архитектура сети с активными дендритами
[[JUMP:18:26]]

Исследователи внедрили эти биологические принципы в архитектуру нейросети. Главное новшество — **слой с активными дендритами** [19:19].

Механизм работы такого слоя выглядит следующим образом:

1.  **Два потока данных:** Нейрон получает прямой сигнал (feed-forward, например, состояние робота) и контекстный сигнал (context, например, ID задачи в виде one-hot вектора) [19:45].
2.  **Дендритные сегменты:** У каждого нейрона есть набор обучаемых векторов — дендритных сегментов. Янник Кильхер отмечает, что в экспериментах их количество часто равнялось количеству задач [21:12].
3.  **Выбор контекста:** Вычисляется скалярное произведение контекстного вектора со всеми дендритными сегментами нейрона. Выбирается сегмент с максимальным совпадением [21:50].
4.  **Модуляция:** Результат (пропущенный через сигмоиду) умножается на результат прямого прохода. Если контекст «не узнан» дендритами, сигнал нейрона блокируется (умножается на число, близкое к нулю) [23:17].
5.  **k-Winner-Takes-All (k-WTA):** После модуляции активируются только $k$ нейронов с самыми высокими значениями во всем слое, остальные обнуляются [26:34].

По мнению Янника Кильхера, сочетание модуляции и разреженности k-WTA создает условия, при которых для каждой задачи в сети автоматически выделяется свое подмножество нейронов [30:00]. При этом веса других нейронов и их дендритные сегменты не получают градиентов и не обновляются, что и предотвращает забывание [31:24].

## 📊 Результаты экспериментов и сравнение с базами
[[JUMP:34:19]]

В мультизадачном обучении роборуки (бенчмарк Metaworld) модель с активными дендритами в итоге превзошла стандартные MLP-базовые линии, хотя в начале обучения могла отставать [37:43]. Кильхер подчеркивает, что наибольший выигрыш наблюдается в «сложных» задачах, где интерференция между действиями максимальна [38:50].

В экспериментах с **Permuted MNIST** авторы показали впечатляющие результаты:

*   Сеть смогла последовательно выучить до 100 задач с минимальной потерей точности на первых из них [40:22].
*   Авторы предложили метод **прототипов**, позволяющий не передавать ID задачи явно. Вместо этого сеть сама определяет контекст, усредняя входящие данные в батче и сравнивая их с накопленными центроидами задач [41:43]. Янник Кильхер называет этот подход «эвристическим» и видит в нем пространство для улучшений [42:26].

Сравнение с другими методами:

*   **Synaptic Intelligence (SI):** Метод, замедляющий изменение важных для старых задач весов. Активные дендриты хорошо сочетаются с SI, показывая лучший результат при совместном использовании [45:33].
*   **Context-Dependent Gating (XDG):** Метод, где подсети для задач задаются жестко (hard-coded). Янник отмечает, что хотя XDG может показывать лучшие результаты при наличии ID задачи, метод активных дендритов более гибок, так как подсети в нем формируются динамически в процессе обучения [48:22].

## 🧐 Анализ и критика Янника Кильхера
[[JUMP:53:28]]

Кильхер задается вопросом: нельзя ли достичь того же эффекта, просто сделав обычную сеть (MLP) больше? Авторы статьи утверждают (и приводят графики), что даже очень глубокие MLP (до 10 слоев) с тем же количеством параметров все равно подвержены катастрофическому забыванию из-за самой природы алгоритма backpropagation в IID-настройках [54:34].

Янник проводит параллели с другими архитектурами:

*   **Трансформеры:** Механизм внимания (Attention) также использует динамическое формирование весов через умножение, что концептуально близко к дендритной модуляции [1:01:55]. Кильхер предполагает, что мощь трансформеров частично объясняется именно этой способностью к динамическому взаимодействию сигналов [1:02:45].
*   **LSTM:** Гейтинговые механизмы (ворота) в ячейках LSTM очень напоминают дендритную модуляцию, хотя в LSTM они используются для управления памятью в последовательностях, а не для разделения задач [1:03:38].

В заключение Янник Кильхер выражает симпатию к подходу Numenta за попытку переосмыслить фундаментальную архитектуру нейрона, сделав её менее специфичной для конкретных задач и более адаптивной к динамическим средам [1:04:43].