Янник Кильхер: «Активные дендриты позволяют нейросетям учиться, не забывая старое»

Yannic Kilcher 19,3 тыс. 1 ч 5 мин 5 мин 18.03.2022
Главное

В новом видео Янник Кильхер разбирает научную работу исследователей из Numenta, Корнеллского и Стэнфордского университетов, посвященную проблеме «катастрофического забывания» в нейросетях. Автор объясняет, как заимствование биологических механизмов — активных дендритов и разреженности активаций — позволяет искусственным нейронам эффективно обучаться множеству задач последовательно, не стирая при этом ранее полученные знания.

🧠 Проблема «катастрофического забывания» в глубоком обучении 1:18

Одной из фундаментальных проблем современных искусственных нейронных сетей (ANN) является так называемое катастрофическое забывание (catastrophic forgetting) . Когда сеть обучается нескольким задачам последовательно, новые градиенты начинают конфликтовать со старыми весами. В результате нейросеть либо не может выучить новую задачу из-за интерференции, либо полностью «стирает» знания о предыдущих .

Янник Кильхер выделяет два основных сценария, в которых эта проблема проявляется наиболее остро:

В качестве примера в статье рассматривается набор данных Permuted MNIST . Это модификация классического MNIST, где для каждой новой задачи пиксели изображения перемешиваются по-новому. Для обычной полносвязной сети каждая такая перестановка — это совершенно новая задача, требующая перестройки весов .

🌿 Биологическое вдохновение: пирамидальные нейроны 9:33

Современная модель искусственного нейрона (сумма входов, умноженных на веса, плюс нелинейность) практически не менялась десятилетиями. Однако, как отмечает Янник Кильхер, она упускает важные аспекты биологии . В статье предлагается вернуться к структуре пирамидальных нейронов неокортекса.

Ключевые отличия биологического нейрона, упомянутые в обзоре:

🏗️ Архитектура сети с активными дендритами 18:26

Исследователи внедрили эти биологические принципы в архитектуру нейросети. Главное новшество — слой с активными дендритами .

Механизм работы такого слоя выглядит следующим образом:

  1. Два потока данных: Нейрон получает прямой сигнал (feed-forward, например, состояние робота) и контекстный сигнал (context, например, ID задачи в виде one-hot вектора) .
  2. Дендритные сегменты: У каждого нейрона есть набор обучаемых векторов — дендритных сегментов. Янник Кильхер отмечает, что в экспериментах их количество часто равнялось количеству задач .
  3. Выбор контекста: Вычисляется скалярное произведение контекстного вектора со всеми дендритными сегментами нейрона. Выбирается сегмент с максимальным совпадением .
  4. Модуляция: Результат (пропущенный через сигмоиду) умножается на результат прямого прохода. Если контекст «не узнан» дендритами, сигнал нейрона блокируется (умножается на число, близкое к нулю) .
  5. k-Winner-Takes-All (k-WTA): После модуляции активируются только $k$ нейронов с самыми высокими значениями во всем слое, остальные обнуляются .

По мнению Янника Кильхера, сочетание модуляции и разреженности k-WTA создает условия, при которых для каждой задачи в сети автоматически выделяется свое подмножество нейронов . При этом веса других нейронов и их дендритные сегменты не получают градиентов и не обновляются, что и предотвращает забывание .

📊 Результаты экспериментов и сравнение с базами 34:19

В мультизадачном обучении роборуки (бенчмарк Metaworld) модель с активными дендритами в итоге превзошла стандартные MLP-базовые линии, хотя в начале обучения могла отставать . Кильхер подчеркивает, что наибольший выигрыш наблюдается в «сложных» задачах, где интерференция между действиями максимальна .

В экспериментах с Permuted MNIST авторы показали впечатляющие результаты:

Сравнение с другими методами:

🧐 Анализ и критика Янника Кильхера 53:28

Кильхер задается вопросом: нельзя ли достичь того же эффекта, просто сделав обычную сеть (MLP) больше? Авторы статьи утверждают (и приводят графики), что даже очень глубокие MLP (до 10 слоев) с тем же количеством параметров все равно подвержены катастрофическому забыванию из-за самой природы алгоритма backpropagation в IID-настройках .

Янник проводит параллели с другими архитектурами:

В заключение Янник Кильхер выражает симпатию к подходу Numenta за попытку переосмыслить фундаментальную архитектуру нейрона, сделав её менее специфичной для конкретных задач и более адаптивной к динамическим средам .

💬 Цитаты

«Катастрофическое забывание — это феномен, когда при обучении множеству задач нейросеть стирает старые знания, потому что наши методы обратного распространения ошибки просто не приспособлены к последовательному обучению.»

Янник Кильхер 01:58

«Активный дендритный сегмент действует как отдельный вычислительный модуль. Когда входной сигнал достигает порога, он деполяризует тело клетки, подготавливая её к срабатыванию.»

Янник Кильхер 15:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Катастрофическое забывание
Резкая потеря нейросетью способности выполнять старую задачу после обучения новой.
Пирамидальный нейрон
Тип нейрона в коре головного мозга млекопитающих, обладающий сложной структурой отростков (дендритов).
k-Winner-Takes-All (k-WTA)
Операция в слое нейросети, которая оставляет активными только k элементов с самыми большими значениями, обнуляя остальные.
Permuted MNIST
Бенчмарк для проверки непрерывного обучения, где пиксели цифр перемешиваются случайным образом для каждой новой задачи.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Active Dendrites Catastrophic Forgetting Numenta Continual Learning k-WTA