Янник Кильхер: «Активные дендриты позволяют нейросетям учиться, не забывая старое»

В новом видео Янник Кильхер разбирает научную работу исследователей из Numenta, Корнеллского и Стэнфордского университетов, посвященную проблеме «катастрофического забывания» в нейросетях. Автор объясняет, как заимствование биологических механизмов — активных дендритов и разреженности активаций — позволяет искусственным нейронам эффективно обучаться множеству задач последовательно, не стирая при этом ранее полученные знания.

🧠 Проблема «катастрофического забывания» в глубоком обучении 1:18

Одной из фундаментальных проблем современных искусственных нейронных сетей (ANN) является так называемое катастрофическое забывание (catastrophic forgetting) . Когда сеть обучается нескольким задачам последовательно, новые градиенты начинают конфликтовать со старыми весами. В результате нейросеть либо не может выучить новую задачу из-за интерференции, либо полностью «стирает» знания о предыдущих .

Янник Кильхер выделяет два основных сценария, в которых эта проблема проявляется наиболее остро:

Мультизадачное обучение с подкреплением (Multi-task RL): Агент находится в среде, где ему нужно выполнять разные действия (например, роборука должна то схватить предмет, то нажать кнопку) . Градиенты от разных задач часто тянут веса в противоположных направлениях, что мешает стабильному обучению .
Непрерывное обучение (Continual Learning): Сети предъявляются задачи одна за другой (например, сначала классификация кошек и собак, затем — коров и бобров) . Без специальных механизмов веса, настроенные под первую задачу, просто перезаписываются данными второй .

В качестве примера в статье рассматривается набор данных Permuted MNIST . Это модификация классического MNIST, где для каждой новой задачи пиксели изображения перемешиваются по-новому. Для обычной полносвязной сети каждая такая перестановка — это совершенно новая задача, требующая перестройки весов .

🌿 Биологическое вдохновение: пирамидальные нейроны 9:33

Современная модель искусственного нейрона (сумма входов, умноженных на веса, плюс нелинейность) практически не менялась десятилетиями. Однако, как отмечает Янник Кильхер, она упускает важные аспекты биологии . В статье предлагается вернуться к структуре пирамидальных нейронов неокортекса.

Ключевые отличия биологического нейрона, упомянутые в обзоре:

Разделение входов: Существуют проксимальные входы (близкие к телу клетки), которые действуют линейно, как в классических ИИ-моделях, и дистальные входы (дендриты), расположенные дальше .
Активные дендриты: Дистальные дендриты работают как независимые вычислительные единицы. Если сигнал на таком дендрите достигает порога, возникает «дендритный спайк» .
Модуляция, а не суммация: Дендритный спайк не заставляет нейрон немедленно сработать, а «подготавливает» его (деполяризует), снижая порог активации на длительное время (до полусекунды) . Это позволяет контекстуальным сигналам модулировать реакцию нейрона на основные данные .
Разреженность (Sparsity): В биологическом мозге одновременно активно очень малое количество нейронов. По мнению авторов, это гарантирует, что векторы разных сущностей будут иметь минимальное перекрытие, что снижает риск интерференции между задачами .

🏗️ Архитектура сети с активными дендритами 18:26

Исследователи внедрили эти биологические принципы в архитектуру нейросети. Главное новшество — слой с активными дендритами .

Механизм работы такого слоя выглядит следующим образом:

Два потока данных: Нейрон получает прямой сигнал (feed-forward, например, состояние робота) и контекстный сигнал (context, например, ID задачи в виде one-hot вектора) .
Дендритные сегменты: У каждого нейрона есть набор обучаемых векторов — дендритных сегментов. Янник Кильхер отмечает, что в экспериментах их количество часто равнялось количеству задач .
Выбор контекста: Вычисляется скалярное произведение контекстного вектора со всеми дендритными сегментами нейрона. Выбирается сегмент с максимальным совпадением .
Модуляция: Результат (пропущенный через сигмоиду) умножается на результат прямого прохода. Если контекст «не узнан» дендритами, сигнал нейрона блокируется (умножается на число, близкое к нулю) .
k-Winner-Takes-All (k-WTA): После модуляции активируются только $k$ нейронов с самыми высокими значениями во всем слое, остальные обнуляются .

По мнению Янника Кильхера, сочетание модуляции и разреженности k-WTA создает условия, при которых для каждой задачи в сети автоматически выделяется свое подмножество нейронов . При этом веса других нейронов и их дендритные сегменты не получают градиентов и не обновляются, что и предотвращает забывание .

📊 Результаты экспериментов и сравнение с базами 34:19

В мультизадачном обучении роборуки (бенчмарк Metaworld) модель с активными дендритами в итоге превзошла стандартные MLP-базовые линии, хотя в начале обучения могла отставать . Кильхер подчеркивает, что наибольший выигрыш наблюдается в «сложных» задачах, где интерференция между действиями максимальна .

В экспериментах с Permuted MNIST авторы показали впечатляющие результаты:

Сеть смогла последовательно выучить до 100 задач с минимальной потерей точности на первых из них .
Авторы предложили метод прототипов, позволяющий не передавать ID задачи явно. Вместо этого сеть сама определяет контекст, усредняя входящие данные в батче и сравнивая их с накопленными центроидами задач . Янник Кильхер называет этот подход «эвристическим» и видит в нем пространство для улучшений .

Сравнение с другими методами:

Synaptic Intelligence (SI): Метод, замедляющий изменение важных для старых задач весов. Активные дендриты хорошо сочетаются с SI, показывая лучший результат при совместном использовании .
Context-Dependent Gating (XDG): Метод, где подсети для задач задаются жестко (hard-coded). Янник отмечает, что хотя XDG может показывать лучшие результаты при наличии ID задачи, метод активных дендритов более гибок, так как подсети в нем формируются динамически в процессе обучения .

🧐 Анализ и критика Янника Кильхера 53:28

Кильхер задается вопросом: нельзя ли достичь того же эффекта, просто сделав обычную сеть (MLP) больше? Авторы статьи утверждают (и приводят графики), что даже очень глубокие MLP (до 10 слоев) с тем же количеством параметров все равно подвержены катастрофическому забыванию из-за самой природы алгоритма backpropagation в IID-настройках .

Янник проводит параллели с другими архитектурами:

Трансформеры: Механизм внимания (Attention) также использует динамическое формирование весов через умножение, что концептуально близко к дендритной модуляции . Кильхер предполагает, что мощь трансформеров частично объясняется именно этой способностью к динамическому взаимодействию сигналов .
LSTM: Гейтинговые механизмы (ворота) в ячейках LSTM очень напоминают дендритную модуляцию, хотя в LSTM они используются для управления памятью в последовательностях, а не для разделения задач .

В заключение Янник Кильхер выражает симпатию к подходу Numenta за попытку переосмыслить фундаментальную архитектуру нейрона, сделав её менее специфичной для конкретных задач и более адаптивной к динамическим средам .