Как случайные нейросети учатся ходить с помощью пластичности Хебба

В новом видео популярный ИИ-исследователь Янник Кильхер (Yannic Kilcher) разбирает революционный подход к созданию адаптивных роботов, описанный в научной работе «Meta-Learning through Hebbian Plasticity in Random Networks». Вместо привычного обучения с подкреплением, где параметры нейросети застывают после завершения тренировки, авторы предлагают использовать биологические принципы пластичности Хебба. Это позволяет случайно инициализированной сети пересобирать саму себя прямо «на лету», мгновенно подстраиваясь под поломки и меняющиеся условия среды.

🧠 Проблема статических систем в классическом ИИ 0:00

Традиционное обучение с подкреплением (RL) отлично справляется с управлением виртуальными роботами, например, заставляя четырехногого робота (квадропода) идти вперед как можно дальше. В такой схеме сенсоры суставов передают данные на вход нейросети, а на выходе формируются команды — с какой силой двигать каждой конечностью. Классический алгоритм RL обучается методом проб и ошибок, постепенно корректируя веса сети, пока не будет найдена оптимальная стратегия управления.

Однако у этого мощного подхода есть фундаментальный недостаток, на который указывает Янник Кильхер. Как только процесс обучения завершается, полученное решение становится статичным. Такая нейросеть не способна адаптироваться к неожиданным возмущениям или физическим повреждениям, если они не были жестко заложены в симуляцию.

В противовес этому исследователь приводит в пример живые организмы. Животные обладают поразительной пластичностью:

Новорожденные детеныши почти сразу способны встать и пойти.
При травме или потере конечности животное мгновенно перестраивает паттерны движений, приспосабливаясь к новому состоянию своего тела.

Биологический мозг непрерывно реконфигурирует себя в режиме реального времени, и именно эту механику авторы обсуждаемой статьи попытались перенести в кремний.

⚙️ Мета-обучение через правила Хебба 4:25

Главное концептуальное отличие предложенного метода от классического RL заключается в том, что именно замораживается после обучения. В обычном обучении с подкреплением фиксируются сами веса связей нейросети. В рассматриваемой же работе веса сети в начале каждого игрового эпизода инициализируются абсолютно случайно. Вместо оптимизации весов авторы обучают правила изменения этих весов в зависимости от поступающих сигналов.

Этот подход опирается на знаменитый биологический постулат Хебба: «нейроны, которые активируются вместе, связываются вместе» (fire together, wire together). Математически изменение веса связи между нейронами $i$ и $j$ на каждом временном шаге описывается формулой, включающей выходы этих нейронов ($o_i$ и $o_j$):

$$\Delta w_{ij} = \eta (A o_i o_j + B o_i + C o_j + D)$$

В этой формуле переменные отражают следующие процессы:

$o_i$ — пресинаптический выход (сигнал от передающего нейрона).
$o_j$ — постсинаптический выход (сигнал принимающего нейрона).
Произведение $o_i \times o_j$ отражает корреляцию их активности.
Параметры $A, B, C, D$ и коэффициент скорости обучения $\eta$ — это и есть те самые константы, которые ИИ должен усвоить в процессе тренировки.

По словам Янника Кильхера, алгоритм обучается индивидуальным правилам для каждой отдельной связи в сети. Обученное правило может диктовать: если два нейрона регулярно активны одновременно, связь между ними должна резко усиливаться (высокое положительное значение $A$). Или наоборот, правило может быть нулевым, игнорируя совместную активацию. В результате нейросеть непрерывно меняет свою внутреннюю структуру на протяжении всего эпизода, подстраиваясь под входящий поток данных от сенсоров.

🤖 Эксперименты: поврежденные роботы и вождение автомобиля 16:25

Чтобы доказать жизнеспособность концепции, исследователи провели эксперимент с виртуальным квадроподом. Задача усложнялась тем, что робот случайным образом оказывался в одной из трех ситуаций, причем алгоритму не сообщали, какая именно конфигурация запущена:

Полностью исправный робот.
Робот с поврежденной передней левой ногой.
Робот с поврежденной передней правой ногой.

Если обучать модель со стандартными статичными весами, она пасует перед такой неопределенностью. Как объясняет Кильхер, статичная сеть пытается найти компромисс: она учится эффективно ходить на трех ногах, полностью жертвуя эффективностью в случае повреждения передней левой лапы, чтобы сохранить высокую производительность в остальных двух сценариях.

Сеть с пластичностью Хебба демонстрирует принципиально иное поведение. Она считывает сигналы обратной связи от сенсоров и, если нога не отвечает должным образом, веса динамически перестраиваются. Нейросеть буквально на ходу перенаправляет логику управления на другие, здоровые конечности.

Второй эксперимент задействовал симуляцию вождения автомобиля по трассе на основе визуальных данных. Модель, управляемая хеббовскими правилами, показала среднюю награду в районе 870 очков. Янник Кильхер подчеркивает, что этот результат сопоставим с показателями сложного классического алгоритма RL под названием PPO, при этом для настройки весов внутри заезда не потребовалось вычислять никаких градиентов.

⚡ Эффект «феникса»: обнуление весов и странные матрицы 30:37

Одним из самых впечатляющих моментов исследования Янник Кильхер называет эксперимент со стресс-тестированием пластичной сети во время движения квадропода.

Посреди заезда разработчики принудительно вмешались в работу системы и полностью обнулили все текущие веса нейросети, стерев накопленную структуру связей. Робот на мгновение потерял координацию, однако всего через 10 временных шагов правила Хебба полностью восстановили работоспособность сети из хаоса, и робот продолжил уверенное движение вперед. Для статичной сети подобное обнуление означало бы безвозвратное превращение в «цифровой овощ».

Тем не менее, Кильхер отмечает и странные аномалии, природа которых осталась не до конца ясной. При визуализации обученной матрицы весов в ней отчетливо проступает диагональный (или антидиагональный) паттерн.

Сам ведущий признается, что искренне озадачен этим феноменом:

«Я искренне сбит с толку. В правилах обучения нет ничего, что зависело бы от пространственного положения нейрона. Почему определенный нейрон на одной стороне стремится отправлять информацию строго на ту же высоту с другой стороны — загадка. Авторы упоминают этот паттерн, но не объясняют его причин».

🧬 Эволюционный подход вместо обратного распространения ошибки 21:21

Поскольку правила Хебба применяются на каждом микрошаге симуляции, попытка обучить параметры $A, B, C, D$ с помощью классического градиентного спуска и обратного распространения ошибки (backpropagation) через тысячи шагов столкнулась бы с колоссальными вычислительными трудностями. Поэтому авторы отказались от вычисления градиентов в пользу эволюционных методов обучения (Evolutionary Strategies).

Янник Кильхер описывает этот процесс как работу «оптимизатора черного ящика»:

Вместо одного агента создается целая популяция со своими наборами хеббовских правил.
К текущим параметрам правил добавляется случайный гауссов шум (мутация).
Все модифицированные агенты запускаются в среду, где измеряется их финальная эффективность (фитнес).
Новое базовое состояние правил формируется как средневзвешенное значение лучших решений: успешные мутации толкают вектор параметров в свою сторону, а провальные — игнорируются.

По мнению Кильхера, такой подход работает как «градиент для бедных», но он невероятно прост в реализации, не требует дифференцируемости функций и позволяет легко находить эффективные макро-правила для сложных адаптивных систем.

⚖️ Этический манифест ИИ и «святая троица» Янника Кильхера 35:30

В финале обзора Янник Кильхер с иронией разбирает обязательный для современных научных публикаций блок о социальном и этическом воздействии технологии (Broader Impact Statement). Авторы работы указали, что роботы, способные продолжать работу при повреждениях, могут принести как пользу (помощь пожилым людям, автоматизация производств), так и вред (военное применение).

Ведущий предлагает универсальный критический тест для подобных текстов: заменить специфическое название метода авторов на общее слово «технология». В результате прочтения получается абстрактный набор банальностей, применимый к любому изобретению от колеса до атомной бомбы.

По оценке Кильхера, большинство исследователей никогда не пишут о конкретных рисках своей узкой темы, а просто следуют негласной «святой троице» ИИ-этики:

«Вы совершаете ритуал, будто креститесь: подносите палец ко лбу, груди, плечам и произносите: „Технология — это хорошо, технология — это плохо, технология — это предвзято“. В этой статье авторы забыли упомянуть предвзятость (bias), так что они выполнили ритуал лишь частично. Я не выдумываю эти правила, вопросы к самим создателям методических рекомендаций».

Несмотря на скепсис к бюрократическим припискам, Кильхер считает исследование крайне многообещающим шагом в сторону отхода от жестких стандартов современного RL, открывающим дорогу к подлинно автономным и живучим робототехническим агентам.