Как случайные нейросети учатся ходить с помощью пластичности Хебба

Yannic Kilcher 14,5 тыс. 39 мин 6 мин 12.08.2020
Главное

В новом видео популярный ИИ-исследователь Янник Кильхер (Yannic Kilcher) разбирает революционный подход к созданию адаптивных роботов, описанный в научной работе «Meta-Learning through Hebbian Plasticity in Random Networks». Вместо привычного обучения с подкреплением, где параметры нейросети застывают после завершения тренировки, авторы предлагают использовать биологические принципы пластичности Хебба. Это позволяет случайно инициализированной сети пересобирать саму себя прямо «на лету», мгновенно подстраиваясь под поломки и меняющиеся условия среды.

🧠 Проблема статических систем в классическом ИИ 0:00

Традиционное обучение с подкреплением (RL) отлично справляется с управлением виртуальными роботами, например, заставляя четырехногого робота (квадропода) идти вперед как можно дальше. В такой схеме сенсоры суставов передают данные на вход нейросети, а на выходе формируются команды — с какой силой двигать каждой конечностью. Классический алгоритм RL обучается методом проб и ошибок, постепенно корректируя веса сети, пока не будет найдена оптимальная стратегия управления.

Однако у этого мощного подхода есть фундаментальный недостаток, на который указывает Янник Кильхер. Как только процесс обучения завершается, полученное решение становится статичным. Такая нейросеть не способна адаптироваться к неожиданным возмущениям или физическим повреждениям, если они не были жестко заложены в симуляцию.

В противовес этому исследователь приводит в пример живые организмы. Животные обладают поразительной пластичностью:

Биологический мозг непрерывно реконфигурирует себя в режиме реального времени, и именно эту механику авторы обсуждаемой статьи попытались перенести в кремний.

⚙️ Мета-обучение через правила Хебба 4:25

Главное концептуальное отличие предложенного метода от классического RL заключается в том, что именно замораживается после обучения. В обычном обучении с подкреплением фиксируются сами веса связей нейросети. В рассматриваемой же работе веса сети в начале каждого игрового эпизода инициализируются абсолютно случайно. Вместо оптимизации весов авторы обучают правила изменения этих весов в зависимости от поступающих сигналов.

Этот подход опирается на знаменитый биологический постулат Хебба: «нейроны, которые активируются вместе, связываются вместе» (fire together, wire together). Математически изменение веса связи между нейронами $i$ и $j$ на каждом временном шаге описывается формулой, включающей выходы этих нейронов ($o_i$ и $o_j$):

$$\Delta w_{ij} = \eta (A o_i o_j + B o_i + C o_j + D)$$

В этой формуле переменные отражают следующие процессы:

По словам Янника Кильхера, алгоритм обучается индивидуальным правилам для каждой отдельной связи в сети. Обученное правило может диктовать: если два нейрона регулярно активны одновременно, связь между ними должна резко усиливаться (высокое положительное значение $A$). Или наоборот, правило может быть нулевым, игнорируя совместную активацию. В результате нейросеть непрерывно меняет свою внутреннюю структуру на протяжении всего эпизода, подстраиваясь под входящий поток данных от сенсоров.

🤖 Эксперименты: поврежденные роботы и вождение автомобиля 16:25

Чтобы доказать жизнеспособность концепции, исследователи провели эксперимент с виртуальным квадроподом. Задача усложнялась тем, что робот случайным образом оказывался в одной из трех ситуаций, причем алгоритму не сообщали, какая именно конфигурация запущена:

  1. Полностью исправный робот.
  2. Робот с поврежденной передней левой ногой.
  3. Робот с поврежденной передней правой ногой.

Если обучать модель со стандартными статичными весами, она пасует перед такой неопределенностью. Как объясняет Кильхер, статичная сеть пытается найти компромисс: она учится эффективно ходить на трех ногах, полностью жертвуя эффективностью в случае повреждения передней левой лапы, чтобы сохранить высокую производительность в остальных двух сценариях.

Сеть с пластичностью Хебба демонстрирует принципиально иное поведение. Она считывает сигналы обратной связи от сенсоров и, если нога не отвечает должным образом, веса динамически перестраиваются. Нейросеть буквально на ходу перенаправляет логику управления на другие, здоровые конечности.

Второй эксперимент задействовал симуляцию вождения автомобиля по трассе на основе визуальных данных. Модель, управляемая хеббовскими правилами, показала среднюю награду в районе 870 очков. Янник Кильхер подчеркивает, что этот результат сопоставим с показателями сложного классического алгоритма RL под названием PPO, при этом для настройки весов внутри заезда не потребовалось вычислять никаких градиентов.

⚡ Эффект «феникса»: обнуление весов и странные матрицы 30:37

Одним из самых впечатляющих моментов исследования Янник Кильхер называет эксперимент со стресс-тестированием пластичной сети во время движения квадропода.

Посреди заезда разработчики принудительно вмешались в работу системы и полностью обнулили все текущие веса нейросети, стерев накопленную структуру связей. Робот на мгновение потерял координацию, однако всего через 10 временных шагов правила Хебба полностью восстановили работоспособность сети из хаоса, и робот продолжил уверенное движение вперед. Для статичной сети подобное обнуление означало бы безвозвратное превращение в «цифровой овощ».

Тем не менее, Кильхер отмечает и странные аномалии, природа которых осталась не до конца ясной. При визуализации обученной матрицы весов в ней отчетливо проступает диагональный (или антидиагональный) паттерн.

Сам ведущий признается, что искренне озадачен этим феноменом:

«Я искренне сбит с толку. В правилах обучения нет ничего, что зависело бы от пространственного положения нейрона. Почему определенный нейрон на одной стороне стремится отправлять информацию строго на ту же высоту с другой стороны — загадка. Авторы упоминают этот паттерн, но не объясняют его причин».

🧬 Эволюционный подход вместо обратного распространения ошибки 21:21

Поскольку правила Хебба применяются на каждом микрошаге симуляции, попытка обучить параметры $A, B, C, D$ с помощью классического градиентного спуска и обратного распространения ошибки (backpropagation) через тысячи шагов столкнулась бы с колоссальными вычислительными трудностями. Поэтому авторы отказались от вычисления градиентов в пользу эволюционных методов обучения (Evolutionary Strategies).

Янник Кильхер описывает этот процесс как работу «оптимизатора черного ящика»:

По мнению Кильхера, такой подход работает как «градиент для бедных», но он невероятно прост в реализации, не требует дифференцируемости функций и позволяет легко находить эффективные макро-правила для сложных адаптивных систем.

⚖️ Этический манифест ИИ и «святая троица» Янника Кильхера 35:30

В финале обзора Янник Кильхер с иронией разбирает обязательный для современных научных публикаций блок о социальном и этическом воздействии технологии (Broader Impact Statement). Авторы работы указали, что роботы, способные продолжать работу при повреждениях, могут принести как пользу (помощь пожилым людям, автоматизация производств), так и вред (военное применение).

Ведущий предлагает универсальный критический тест для подобных текстов: заменить специфическое название метода авторов на общее слово «технология». В результате прочтения получается абстрактный набор банальностей, применимый к любому изобретению от колеса до атомной бомбы.

По оценке Кильхера, большинство исследователей никогда не пишут о конкретных рисках своей узкой темы, а просто следуют негласной «святой троице» ИИ-этики:

«Вы совершаете ритуал, будто креститесь: подносите палец ко лбу, груди, плечам и произносите: „Технология — это хорошо, технология — это плохо, технология — это предвзято“. В этой статье авторы забыли упомянуть предвзятость (bias), так что они выполнили ритуал лишь частично. Я не выдумываю эти правила, вопросы к самим создателям методических рекомендаций».

Несмотря на скепсис к бюрократическим припискам, Кильхер считает исследование крайне многообещающим шагом в сторону отхода от жестких стандартов современного RL, открывающим дорогу к подлинно автономным и живучим робототехническим агентам.

💬 Цитаты

«Я искренне сбит с толку. В правилах обучения нет ничего, что зависело бы от пространственного положения нейрона. Почему определенный нейрон на одной стороне стремится отправлять информацию строго на ту же высоту с другой стороны — загадка.»

Янник Кильхер 33:56

«Вы совершаете ритуал, будто креститесь: подносите палец ко лбу, груди, плечам и произносите: „Технология — это хорошо, технология — это плохо, технология — это предвзято“.»

Янник Кильхер 38:47
👥 Спикер
📖 Термины
Пластичность Хебба
Биологический феномен изменения силы синаптической связи между нейронами в зависимости от синхронности их активности.
Пресинаптический выход
Сигнал, исходящий от передающего нейрона до пересечения синаптической цепочки.
Постсинаптический выход
Активность принимающего нейрона, реагирующего на входящие сигналы от других клеток.
Эволюционные стратегии
Методы численной оптимизации, основанные на случайном изменении параметров, отборе лучших вариантов и вычислении их среднего значения.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Янник Кильхер пластичность Хебба мета-обучение эволюционные алгоритмы