В новом видео Янник Кильхер разбирает научную работу исследователей из Numenta, Корнеллского и Стэнфордского университетов, посвященную проблеме «катастрофического забывания» в нейросетях. Автор объясняет, как заимствование биологических механизмов — активных дендритов и разреженности активаций — позволяет искусственным нейронам эффективно обучаться множеству задач последовательно, не стирая при этом ранее полученные знания.
🧠 Проблема «катастрофического забывания» в глубоком обучении 1:18
Одной из фундаментальных проблем современных искусственных нейронных сетей (ANN) является так называемое катастрофическое забывание (catastrophic forgetting) . Когда сеть обучается нескольким задачам последовательно, новые градиенты начинают конфликтовать со старыми весами. В результате нейросеть либо не может выучить новую задачу из-за интерференции, либо полностью «стирает» знания о предыдущих .
Янник Кильхер выделяет два основных сценария, в которых эта проблема проявляется наиболее остро:
- Мультизадачное обучение с подкреплением (Multi-task RL): Агент находится в среде, где ему нужно выполнять разные действия (например, роборука должна то схватить предмет, то нажать кнопку) . Градиенты от разных задач часто тянут веса в противоположных направлениях, что мешает стабильному обучению .
- Непрерывное обучение (Continual Learning): Сети предъявляются задачи одна за другой (например, сначала классификация кошек и собак, затем — коров и бобров) . Без специальных механизмов веса, настроенные под первую задачу, просто перезаписываются данными второй .
В качестве примера в статье рассматривается набор данных Permuted MNIST . Это модификация классического MNIST, где для каждой новой задачи пиксели изображения перемешиваются по-новому. Для обычной полносвязной сети каждая такая перестановка — это совершенно новая задача, требующая перестройки весов .
🌿 Биологическое вдохновение: пирамидальные нейроны 9:33
Современная модель искусственного нейрона (сумма входов, умноженных на веса, плюс нелинейность) практически не менялась десятилетиями. Однако, как отмечает Янник Кильхер, она упускает важные аспекты биологии . В статье предлагается вернуться к структуре пирамидальных нейронов неокортекса.
Ключевые отличия биологического нейрона, упомянутые в обзоре:
- Разделение входов: Существуют проксимальные входы (близкие к телу клетки), которые действуют линейно, как в классических ИИ-моделях, и дистальные входы (дендриты), расположенные дальше .
- Активные дендриты: Дистальные дендриты работают как независимые вычислительные единицы. Если сигнал на таком дендрите достигает порога, возникает «дендритный спайк» .
- Модуляция, а не суммация: Дендритный спайк не заставляет нейрон немедленно сработать, а «подготавливает» его (деполяризует), снижая порог активации на длительное время (до полусекунды) . Это позволяет контекстуальным сигналам модулировать реакцию нейрона на основные данные .
- Разреженность (Sparsity): В биологическом мозге одновременно активно очень малое количество нейронов. По мнению авторов, это гарантирует, что векторы разных сущностей будут иметь минимальное перекрытие, что снижает риск интерференции между задачами .
🏗️ Архитектура сети с активными дендритами 18:26
Исследователи внедрили эти биологические принципы в архитектуру нейросети. Главное новшество — слой с активными дендритами .
Механизм работы такого слоя выглядит следующим образом:
- Два потока данных: Нейрон получает прямой сигнал (feed-forward, например, состояние робота) и контекстный сигнал (context, например, ID задачи в виде one-hot вектора) .
- Дендритные сегменты: У каждого нейрона есть набор обучаемых векторов — дендритных сегментов. Янник Кильхер отмечает, что в экспериментах их количество часто равнялось количеству задач .
- Выбор контекста: Вычисляется скалярное произведение контекстного вектора со всеми дендритными сегментами нейрона. Выбирается сегмент с максимальным совпадением .
- Модуляция: Результат (пропущенный через сигмоиду) умножается на результат прямого прохода. Если контекст «не узнан» дендритами, сигнал нейрона блокируется (умножается на число, близкое к нулю) .
- k-Winner-Takes-All (k-WTA): После модуляции активируются только $k$ нейронов с самыми высокими значениями во всем слое, остальные обнуляются .
По мнению Янника Кильхера, сочетание модуляции и разреженности k-WTA создает условия, при которых для каждой задачи в сети автоматически выделяется свое подмножество нейронов . При этом веса других нейронов и их дендритные сегменты не получают градиентов и не обновляются, что и предотвращает забывание .
📊 Результаты экспериментов и сравнение с базами 34:19
В мультизадачном обучении роборуки (бенчмарк Metaworld) модель с активными дендритами в итоге превзошла стандартные MLP-базовые линии, хотя в начале обучения могла отставать . Кильхер подчеркивает, что наибольший выигрыш наблюдается в «сложных» задачах, где интерференция между действиями максимальна .
В экспериментах с Permuted MNIST авторы показали впечатляющие результаты:
- Сеть смогла последовательно выучить до 100 задач с минимальной потерей точности на первых из них .
- Авторы предложили метод прототипов, позволяющий не передавать ID задачи явно. Вместо этого сеть сама определяет контекст, усредняя входящие данные в батче и сравнивая их с накопленными центроидами задач . Янник Кильхер называет этот подход «эвристическим» и видит в нем пространство для улучшений .
Сравнение с другими методами:
- Synaptic Intelligence (SI): Метод, замедляющий изменение важных для старых задач весов. Активные дендриты хорошо сочетаются с SI, показывая лучший результат при совместном использовании .
- Context-Dependent Gating (XDG): Метод, где подсети для задач задаются жестко (hard-coded). Янник отмечает, что хотя XDG может показывать лучшие результаты при наличии ID задачи, метод активных дендритов более гибок, так как подсети в нем формируются динамически в процессе обучения .
🧐 Анализ и критика Янника Кильхера 53:28
Кильхер задается вопросом: нельзя ли достичь того же эффекта, просто сделав обычную сеть (MLP) больше? Авторы статьи утверждают (и приводят графики), что даже очень глубокие MLP (до 10 слоев) с тем же количеством параметров все равно подвержены катастрофическому забыванию из-за самой природы алгоритма backpropagation в IID-настройках .
Янник проводит параллели с другими архитектурами:
- Трансформеры: Механизм внимания (Attention) также использует динамическое формирование весов через умножение, что концептуально близко к дендритной модуляции . Кильхер предполагает, что мощь трансформеров частично объясняется именно этой способностью к динамическому взаимодействию сигналов .
- LSTM: Гейтинговые механизмы (ворота) в ячейках LSTM очень напоминают дендритную модуляцию, хотя в LSTM они используются для управления памятью в последовательностях, а не для разделения задач .
В заключение Янник Кильхер выражает симпатию к подходу Numenta за попытку переосмыслить фундаментальную архитектуру нейрона, сделав её менее специфичной для конкретных задач и более адаптивной к динамическим средам .