Сможет ли случайная матрица заменить обратное распространение ошибки?

В новом видеоролике популярный ИИ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает прикладную научную работу «Direct Feedback Alignment Scales to Modern Deep Learning Tasks and Architectures». Авторы исследования — Жюльен Лоне (Julien Launay), Якопо Поли (Iacopo Poli), Франсуа Бонифас (François Boniface) и Флоран Крзакала (Florent Krzakala) — впервые успешно применили алгоритм прямого выравнивания обратной связи (DFA) к масштабным современным архитектурам нейросетей. По мнению Килчера, эта сложная инженерная публикация доказывает возможность эффективного обучения моделей в обход традиционного, но биологически неправдоподобного метода обратного распространения ошибки.

🛑 Кризис обратного распространения: почему Backprop — не панацея 1:34

Несмотря на то, что алгоритм обратного распространения ошибки (backpropagation) является главным «рабочим конем» современного глубокого обучения, он далеко не безупречен. Традиционный пайплайн обучения устроен жестко последовательно: сначала входные данные проходят через все слои нейросети вперед, в конце вычисляется функция потерь (loss function), а затем градиент ошибки поочередно транслируется обратно — от финального слоя к первому.

Такой подход порождает две фундаментальные проблемы:

Неэффективная параллелизация: невозможно обновить веса на условном первом слое до тех пор, пока ошибка не будет последовательно просчитана и передана через все последующие слои. Это создает серьезное вычислительное «бутылочное горлышко» при масштабировании систем.
Биологическая неправдоподобность: устройство реального человеческого мозга исключает механизмы, подобные backprop. В живых нейронах сигнал от дендритов к аксону движется строго в одном направлении. Науке неизвестны механизмы быстрой обратной связи в мозге, способные передавать точную информацию об ошибке в обратную сторону.

Особенно критикуется так называемый перенос весов (weight transport). Для обратного прохода backpropagation обязан использовать транспонированную матрицу весов ($W^T$) текущего слоя.

В биологических структурах синапс физически не может получить доступ к точной матрице весов следующего слоя в ее транспонированном виде для корректировки собственного состояния.

🧠 Прямое выравнивание обратной связи: альтернатива без переноса весов 6:34

Алгоритм прямого выравнивания обратной связи (Direct Feedback Alignment, или DFA) радикально меняет эту схему. Вместо последовательного проталкивания ошибки через всю цепь слоев, DFA берет вектор ошибки напрямую с выходного слоя нейросети и мгновенно распределяет его по всем скрытым слоям глобально и одновременно. При этом алгоритму больше не требуются транспонированные матрицы весов и строго последовательные шаги.

Янник Килчер напоминает предысторию технологии, упоминая работу Арильда Нёкланда (Arild Nøkland), который описал промежуточный метод — Feedback Alignment (FA). В FA классическое транспонирование весов заменяется обычными случайными матрицами.

Процесс устроен следующим образом:

В самом начале обучения для каждого слоя генерируется случайная матрица (значения инициализируются из распределения Гаусса).
Эта матрица жестко фиксируется и больше никогда не меняется в процессе тренировки модели.
Именно через эти статичные случайные веса сигнал ошибки транслируется обратно.

Однако метод FA все еще требовал последовательного прохода по слоям. Алгоритм DFA делает шаг вперед: он берет производную функции потерь относительно выходов самого последнего слоя (например, логитов перед софтмаксом) и отправляет этот вектор напрямую во все слои параллельно через их собственные фиксированные случайные матрицы.

📐 Геометрия случайных матриц: гипотеза Янника Килчера 21:16

Главный парадокс DFA, вызывающий споры в ИИ-сообществе: как абсолютно случайная и фиксированная матрица может адекватно подсказывать нижним слоям нейросети, в какую сторону им нужно менять свои веса для уменьшения общей ошибки?. Ведущий Янник Килчер предлагает собственную математическую гипотезу для объяснения этого феномена.

При классическом backpropagation градиент указывает слою, как изменить выход, чтобы угодить финальной функции потерь. При DFA выход слоя меняется под воздействием случайной трансформации этой финальной ошибки.

Суть гипотезы Килчера строится на геометрических свойствах:

Случайные матрицы больших размерностей обладают свойством приблизительно сохранять расстояния и углы между векторами при проецировании.
Умножение вектора ошибки на фиксированную случайную матрицу фактически индуцирует стабильную альтернативную систему координат в пространстве скрытого слоя.
Если на вход сети подается массив данных, объекты одного класса (например, класса «0») на финальном слое будут направляться вектором ошибки в одну и ту же сторону для минимизации потерь.
Поскольку случайная матрица сохраняет взаимные углы, при обратной проекции векторы обновлений для объектов одного класса также окажутся сонаправлены.

В результате, как утверждает Килчер, внутри скрытых слоев начинает непроизвольно возникать семантическая кластеризация: элементы одного класса стягиваются случайной матрицей вместе, а элементы разных классов — расталкиваются. С каждым последующим слоем такое разделение становится все более выраженным, что колоссально облегчает финальному классификатору его задачу.

В подтверждение своей гипотезы ведущий демонстрирует графики из статьи Нёкланда, где наглядно видно, что при обучении через DFA четкая кластеризация признаков по слоям формируется точно так же, как и при стандартном backpropagation.

🛠 Выход за рамки компьютерного зрения: новые архитектуры 7:17

Предыдущие попытки применить DFA ограничивались задачами компьютерного зрения на базе сверточных нейросетей (CNN). Однако специфика DFA такова, что он эффективно работает преимущественно с полносвязными (линейными) слоями вида $W X + B$. На сверточных архитектурах DFA исторически демонстрировал слабые результаты, из-за чего сравнение с backprop было предвзятым.

Авторы рассматриваемой публикации совершили прорыв, перенеся эксперименты на ультрасовременные архитектуры, где линейные слои составляют основу вычислений:

Трансформеры (Transformers): применяются в обработке естественного языка (NLP).
Нейронные поля излучения (NeRF): используются для синтеза трехмерных объектов и сцен.
Графовые нейросети (GNN): применяются в геометрическом обучении для связывания вершин и ребер.

Янник Килчер делает важное примечание: исследователи не смогли полностью вырезать backpropagation из современных моделей. Они применили гибридный подход. DFA успешно обновляет веса полносвязных блоков, но в механизмах самовнимания (attention mechanism) трансформеров и на слоях эмбеддингов авторам все еще приходится задействовать классический backprop, поскольку DFA там архитектурно неприменим или приводит к чрезмерному раздуванию вычислений.

📊 Практические результаты: насколько DFA близко к Backprop? 31:08

В задаче трехмерного рендеринга NeRF модель, обученная с помощью DFA, показала результаты, вплотную приближающиеся к backpropagation. Визуально сгенерированные объекты выглядят чуть более размытыми, но система полностью жизнеспособна. Более того, на синтетических датасетах DFA-версия NeRF превзошла по качеству некоторые альтернативные базовые модели, которые обучались на стандартном backprop.

При тестировании трансформеров авторы разделили стратегии на два типа:

Макро-настройка (Macro): алгоритм DFA применяется глобально к крупным изолированным блокам сети.
Микро-настройка (Micro): DFA-обновления отправляются точечно на каждый отдельный слой.

При тщательном подборе гиперпараметров именно макро-стратегия показала высокую конкурентоспособность. По оценке Килчера, текущие показатели DFA все еще уступают идеально отточенному backpropagation, однако они зафиксировали результаты на беспрецедентно высоком для этой технологии уровне.

Ведущий резюмирует, что перед нами фундаментальная инженерная веха. Если мировое ИИ-сообщество потратит на оптимизацию и тюнинг DFA хотя бы долю тех усилий, которые за последние десятилетия были вложены в развитие backpropagation, биологически правдоподобное обучение сможет составить полноценную конкуренцию классическим методам.