Сможет ли случайная матрица заменить обратное распространение ошибки?

Yannic Kilcher 18,2 тыс. 34 мин 5 мин 27.06.2020
Главное

В новом видеоролике популярный ИИ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает прикладную научную работу «Direct Feedback Alignment Scales to Modern Deep Learning Tasks and Architectures». Авторы исследования — Жюльен Лоне (Julien Launay), Якопо Поли (Iacopo Poli), Франсуа Бонифас (François Boniface) и Флоран Крзакала (Florent Krzakala) — впервые успешно применили алгоритм прямого выравнивания обратной связи (DFA) к масштабным современным архитектурам нейросетей. По мнению Килчера, эта сложная инженерная публикация доказывает возможность эффективного обучения моделей в обход традиционного, но биологически неправдоподобного метода обратного распространения ошибки.

🛑 Кризис обратного распространения: почему Backprop — не панацея 1:34

Несмотря на то, что алгоритм обратного распространения ошибки (backpropagation) является главным «рабочим конем» современного глубокого обучения, он далеко не безупречен. Традиционный пайплайн обучения устроен жестко последовательно: сначала входные данные проходят через все слои нейросети вперед, в конце вычисляется функция потерь (loss function), а затем градиент ошибки поочередно транслируется обратно — от финального слоя к первому.

Такой подход порождает две фундаментальные проблемы:

Особенно критикуется так называемый перенос весов (weight transport). Для обратного прохода backpropagation обязан использовать транспонированную матрицу весов ($W^T$) текущего слоя.

В биологических структурах синапс физически не может получить доступ к точной матрице весов следующего слоя в ее транспонированном виде для корректировки собственного состояния.

🧠 Прямое выравнивание обратной связи: альтернатива без переноса весов 6:34

Алгоритм прямого выравнивания обратной связи (Direct Feedback Alignment, или DFA) радикально меняет эту схему. Вместо последовательного проталкивания ошибки через всю цепь слоев, DFA берет вектор ошибки напрямую с выходного слоя нейросети и мгновенно распределяет его по всем скрытым слоям глобально и одновременно. При этом алгоритму больше не требуются транспонированные матрицы весов и строго последовательные шаги.

Янник Килчер напоминает предысторию технологии, упоминая работу Арильда Нёкланда (Arild Nøkland), который описал промежуточный метод — Feedback Alignment (FA). В FA классическое транспонирование весов заменяется обычными случайными матрицами.

Процесс устроен следующим образом:

  1. В самом начале обучения для каждого слоя генерируется случайная матрица (значения инициализируются из распределения Гаусса).
  2. Эта матрица жестко фиксируется и больше никогда не меняется в процессе тренировки модели.
  3. Именно через эти статичные случайные веса сигнал ошибки транслируется обратно.

Однако метод FA все еще требовал последовательного прохода по слоям. Алгоритм DFA делает шаг вперед: он берет производную функции потерь относительно выходов самого последнего слоя (например, логитов перед софтмаксом) и отправляет этот вектор напрямую во все слои параллельно через их собственные фиксированные случайные матрицы.

📐 Геометрия случайных матриц: гипотеза Янника Килчера 21:16

Главный парадокс DFA, вызывающий споры в ИИ-сообществе: как абсолютно случайная и фиксированная матрица может адекватно подсказывать нижним слоям нейросети, в какую сторону им нужно менять свои веса для уменьшения общей ошибки?. Ведущий Янник Килчер предлагает собственную математическую гипотезу для объяснения этого феномена.

При классическом backpropagation градиент указывает слою, как изменить выход, чтобы угодить финальной функции потерь. При DFA выход слоя меняется под воздействием случайной трансформации этой финальной ошибки.

Суть гипотезы Килчера строится на геометрических свойствах:

В результате, как утверждает Килчер, внутри скрытых слоев начинает непроизвольно возникать семантическая кластеризация: элементы одного класса стягиваются случайной матрицей вместе, а элементы разных классов — расталкиваются. С каждым последующим слоем такое разделение становится все более выраженным, что колоссально облегчает финальному классификатору его задачу.

В подтверждение своей гипотезы ведущий демонстрирует графики из статьи Нёкланда, где наглядно видно, что при обучении через DFA четкая кластеризация признаков по слоям формируется точно так же, как и при стандартном backpropagation.

🛠 Выход за рамки компьютерного зрения: новые архитектуры 7:17

Предыдущие попытки применить DFA ограничивались задачами компьютерного зрения на базе сверточных нейросетей (CNN). Однако специфика DFA такова, что он эффективно работает преимущественно с полносвязными (линейными) слоями вида $W X + B$. На сверточных архитектурах DFA исторически демонстрировал слабые результаты, из-за чего сравнение с backprop было предвзятым.

Авторы рассматриваемой публикации совершили прорыв, перенеся эксперименты на ультрасовременные архитектуры, где линейные слои составляют основу вычислений:

Янник Килчер делает важное примечание: исследователи не смогли полностью вырезать backpropagation из современных моделей. Они применили гибридный подход. DFA успешно обновляет веса полносвязных блоков, но в механизмах самовнимания (attention mechanism) трансформеров и на слоях эмбеддингов авторам все еще приходится задействовать классический backprop, поскольку DFA там архитектурно неприменим или приводит к чрезмерному раздуванию вычислений.

📊 Практические результаты: насколько DFA близко к Backprop? 31:08

В задаче трехмерного рендеринга NeRF модель, обученная с помощью DFA, показала результаты, вплотную приближающиеся к backpropagation. Визуально сгенерированные объекты выглядят чуть более размытыми, но система полностью жизнеспособна. Более того, на синтетических датасетах DFA-версия NeRF превзошла по качеству некоторые альтернативные базовые модели, которые обучались на стандартном backprop.

При тестировании трансформеров авторы разделили стратегии на два типа:

При тщательном подборе гиперпараметров именно макро-стратегия показала высокую конкурентоспособность. По оценке Килчера, текущие показатели DFA все еще уступают идеально отточенному backpropagation, однако они зафиксировали результаты на беспрецедентно высоком для этой технологии уровне.

Ведущий резюмирует, что перед нами фундаментальная инженерная веха. Если мировое ИИ-сообщество потратит на оптимизацию и тюнинг DFA хотя бы долю тех усилий, которые за последние десятилетия были вложены в развитие backpropagation, биологически правдоподобное обучение сможет составить полноценную конкуренцию классическим методам.

💬 Цитаты

«Алгоритм DFA работает: пока не на одном уровне с обратным распространением, но в очень многообещающем направлении.»

Янник Килчер 01:09

«В биологии у нас нет аналогов механизму переноса транспонированных матриц весов.»

Янник Килчер 06:07
👥 Спикер
📖 Термины
Backpropagation (обратное распространение ошибки)
Стандартный алгоритм обучения нейросетей путем последовательной передачи градиента ошибки от выходного слоя к входному.
Direct Feedback Alignment (DFA)
Альтернативный метод обучения, передающий сигнал ошибки напрямую на каждый слой через фиксированную случайную матрицу.
Weight Transport (перенос весов)
Проблема биологической неправдоподобности backprop, требующая передачи точных значений весов следующего слоя для вычисления градиентов предыдущего.
Neural Radiance Fields (NeRF)
Технология генерации трехмерных сцен по набору двухмерных фотографий с использованием нейросетей.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Direct Feedback Alignment Янник Кильхер обратное распространение Transformers