Как активные дендриты защищают нейросети от катастрофического забывания

В данном обзоре ведущий Янник Килчер анализирует научную работу исследователей из компании Numenta, Корнеллского и Стэнфордского университетов, посвященную борьбе с катастрофическим забыванием в искусственных нейронных сетях. Авторы статьи предлагают вернуть в глубокое обучение биологические механизмы активных дендритов и разреженности, которые были утеряны при создании классических моделей искусственных нейронов. Этот подход позволяет нейросетям эффективно переключаться между множеством динамических задач в процессе непрерывного обучения без потери ранее накопленных знаний.

🧠 Проблема катастрофического забывания и биологический контекст 1:06

Современные искусственные нейронные сети (ANN) демонстрируют серьезные сбои при последовательном обучении нескольким задачам. Это явление называется катастрофическим забыванием (catastrophic forgetting): как только сеть начинает обучаться новой задаче, градиенты обратного распространения ошибки полностью перезаписывают веса, стирая информацию о предыдущих контекстах. По словам Янника Килчера, стандартные методы обучения попросту не приспособлены для одновременного или последовательного освоения не связанных между собой паттернов без взаимных помех.

В качестве решения авторы исследования предлагают пересмотреть классическую модель искусственного нейрона, которая практически не менялась десятилетиями. В стандартных сетях нейрон линейно суммирует входящие сигналы, умноженные на веса, и пропускает их через нелинейную функцию активации. В биологических же пирамидальных нейронах неокортекса структура гораздо сложнее.

Янник Килчер выделяет ключевые особенности биологического прототипа:

Разделение входов: Нейрон имеет проксимальные (ближние к телу клетки) и дистальные (удаленные) дендриты.
Линейное влияние: Проксимальные входы действуют аналогично классическим весам в искусственных сетях, оказывая прямое линейное воздействие на активацию.
Модулирующий контекст: Дистальные дендриты работают как независимые вычислительные подмодули. Они принимают контекстуальные сигналы от других слоев или областей мозга.

Когда сигнал на дистальном дендрите достигает порога, возникает дендритный спайк, который деполяризует нейрон на длительное время (до половины секунды). В этот период клетка оказывается гораздо ближе к порогу срабатывания. Таким образом, дистальные дендриты выполняют роль контекстно-зависимых модуляторов, подготавливающих нейрон к активации в определенных условиях.

🛠️ Архитектура сети с активными дендритами 18:26

Для интеграции этих свойств в глубокое обучение авторы создали специальный полносвязный слой — Active Dendrite Linear Layer. В этой архитектуре разделяются два потока данных: основной прямой сигнал (например, состояние среды или признаки изображения) и вектор контекста (например, идентификатор текущей задачи).

Процесс вычисления в таком слое устроен следующим образом:

Прямой сигнал проходит через стандартную матрицу весов и формирует базовую активацию нейрона.
Вектор контекста сопоставляется со специальными обучаемыми параметрами нейрона — дендритными сегментами. Каждый нейрон обладает собственным набором таких сегментов.
Вычисляется скалярное произведение вектора контекста со всеми дендритными сегментами данного нейрона, после чего выбирается максимальное значение.
Это максимальное значение пропускается через сигмоидальную функцию, преобразуясь в коэффициент от 0 до 1, на который затем умножается результат прямого сигнала.

Если дендритные сегменты нейрона не распознают текущий контекст, сигмоида выдает значение, близкое к нулю, полностью блокируя прохождение основного сигнала.

Вторым важным компонентом архитектуры является механизм «K-Winner-Takes-All» (k-WTA), обеспечивающий разреженность представлений. Вместо активации всех элементов слоя, функция k-WTA отбирает только $K$ нейронов с наивысшими показателями, а активацию остальных принудительно обнуляет.

Поскольку градиенты не текут через заблокированные и обнуленные нейроны, их веса и дендритные параметры остаются нетронутыми во время оптимизации. По мнению Янника Килчера, сочетание контекстной модуляции и жесткой разреженности заставляет сеть автоматически формировать устойчивые изолированные субструктуры под каждую задачу.

🔬 Эксперименты: робототехника и непрерывное обучение 34:06

Эффективность предложенного метода тестировалась в двух различных сценариях. Первый — мультизадачное обучение с подкреплением (Multi-task RL) на базе алгоритма Soft Actor-Critic. Роботизированная рука должна была выполнять 10 различных манипуляций в одной среде. Сеть состояла из двух скрытых слоев по 2800 нейронов в каждом, причем активные дендриты внедрялись во второй скрытый слой. Вектор контекста передавался в виде binary one-hot вектора задачи. В этой конфигурации сеть с активными дендритами продемонстрировала превосходство над стандартным многослойным перцептроном (MLP), особенно в сложных задачах на перемещение объектов, где интерференция градиентов максимальна.

Второй сценарий — непрерывное обучение (Continual Learning) на бенчмарке Permuted MNIST, где сети последовательно предъявлялись до 100 различных задач с перетасованными пикселями изображений цифр. В этом эксперименте исследователи проверили два режима работы с контекстом:

Заданный контекст: Сеть получает точный ID задачи на этапе обучения и теста.
Выведенный контекст (Inferred Context): Идентификатор задачи не предоставляется. Вместо этого сеть сама формирует «прототипы» задач, усредняя поступающие векторы данных внутри батча и отслеживая расстояние до известных прототипов.

Янник Килчер критически отзывается о методе выведения контекста через простое усреднение входных данных, называя его «слабой эвристикой», которая работает на специфичном датасете Permuted MNIST, но вряд ли покажет себя информативной в реальных сложных условиях. Тем не менее, экспериментальные данные показывают, что даже с выведенным контекстом сеть удерживает высокую точность на протяжении 100 последовательных задач, в то время как классические MLP быстро теряют эффективность.

📊 Сравнение с альтернативными методами и абляция 44:27

Авторы сопоставили свой подход с другими известными методами борьбы с катастрофическим забыванием. В частности, проводилось сравнение с методом Synaptic Intelligence (SI), который работает на уровне отдельных синапсов и замедляет изменение весов, критически важных для прошлых задач. Эксперименты показали, что SI сам по себе может превосходить чистый метод активных дендритов. Однако эти подходы комплементарны: их совместное использование (Active Dendrites + SI) дает наилучший синергетический эффект и максимальную точность.

Также было проведено сравнение с алгоритмом Context-Dependent Gating (XDG). Этот метод жестко pre-allocates (выделяет) определенные подсети под каждую задачу. В связке с SI алгоритм XDG показал результаты лучше, чем активные дендриты. Тем не менее, ведущий подчеркивает принципиальное преимущество разработки Numenta: XDG требует обязательного знания ID задачи во время инференса и ручного проектирования структуры, в то время как в модели с активными дендритами специализированные подсети эмерджентно возникают сами благодаря обучению дендритных сегментов.

В ходе исследования была опровергнута гипотеза о том, что аналогичного распределения функций можно добиться простым масштабированием стандартных сетей. Увеличение глубины обычного MLP (вплоть до 10 слоев) не только не решило проблему катастрофического забывания, но и ухудшило результаты. Янник Килчер соглашается с аргументом авторов: корень проблемы кроется в самом алгоритме обратного распространения ошибки, который обновляет все веса подряд в не-IID (независимых и одинаково распределенных) потоках данных.

🔍 Теоретические параллели: Трансформеры, LSTM и будущее архитектур 59:00

Анализируя математическую суть активных дендритов, Янник Килчер проводит параллели с современными архитектурами глубокого обучения. Он отмечает, что механизм разреженности k-WTA концептуально близок к разреженным слоям Mixture of Experts (MoE), применяемым в современных крупномасштабных моделях.

По мнению Килчера, мультипликативное взаимодействие сигналов, реализуемое через дендриты, можно сопоставить с механизмами внимания (Attention) в трансформерах:

Дендритные сегменты могут выступать в роли «ключей» (Keys).
Вектор контекста выполняет функцию «запроса» (Queries).
Функция максимизации и сигмоида отдаленно напоминают Softmax, регулирующий прохождение «значений» (Values) основного потока.

Второй близкой аналогией Килчер называет рекуррентные блоки LSTM. Архитектура LSTM явным образом использует вентили (gates), включая forget gate, для мультипликативного регулирования скрытого состояния на основе контекста предыдущих шагов. Главное отличие заключается в том, что LSTM конструирует контекстный сигнал внутри собственной динамической системы, тогда как в рассматриваемой работе контекст подается извне в виде явных признаков среды.

В заключение Янник Килчер положительно оценивает тенденцию возвращения к биологическим истокам, поскольку это позволяет дополнить фундаментальную структуру искусственного нейрона гибкими механизмами боковой и нисходящей модуляции.