Магия знака или просто геометрия? Как Uber AI деконструировали нейросети

В своем новом видео популярный ИИ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает научную работу «Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask», подготовленную специалистами лаборатории Uber AI. Эта публикация развивает знаменитую гипотезу лотерейного билета, глубоко исследуя, какие именно компоненты делают прореженные нейросети эффективными. Ведущий критически оценивает выводы авторов, ставит под сомнение их статистические методы и предлагает собственный взгляд на природу успеха «выигрышных билетов».

🎫 Классическая гипотеза лотерейного билета: краткий экскурс 0:00

В самом начале обзора Янник Килчер напоминает суть оригинальной концепции, чтобы дать контекст зрителям. Согласно гипотезе лотерейного билета, внутри любой избыточной полносвязной нейросети существует скрытая подсеть (тот самый «выигрышный билет»), которая содержит значительно меньше весов, но при этом способна достигать аналогичной или даже более высокой точности после обучения.

Однако здесь есть принципиальное условие: веса этой подсети должны быть инициализированы ровно в тех же точках, что и веса исходной полной сети перед стартом оптимизации. На основе этого строится базовый алгоритм поиска выигрышных билетов:

Обучить полную нейросеть до сходимости.
Выбрать веса, имеющие наибольшую абсолютную величину (амплитуду) на конец обучения.
Сбросить значения выбранных весов до их исходного (начального) состояния.
Заморозить или удалить остальные параметры, после чего заново обучить полученную компактную подсеть.

Янник Килчер поясняет, что этот процесс по сути представляет собой классическую технику прунинга (прореживания) весов. Рассматриваемая же статья призвана пролить свет на то, какие факторы в этой процедуре критически важны для итогового результата, а какие второстепенны.

📊 Геометрия весов: как SGD минимизирует усилия 3:01

Для наглядного объяснения процессов авторы статьи используют двумерные графики, где каждая точка репрезентирует отдельный вес нейросети. На оси $X$ откладывается начальное значение веса ($W_i$), полученное в результате случайной инициализации около нуля. На оси $Y$ отображается его финальное значение после обучения ($W_f$) с помощью стохастического градиентного спуска.

Янник Килчер обращает внимание на то, что облако точек на графике образует выраженный наклонный эллипс. По его словам, это объясняется тем, что начальные и финальные веса сильно коррелируют между собой: если вес изначально был положительным, он с высокой вероятностью останется положительным.

Алгоритм стохастического градиентного спуска (SGD) действует «жадно» и делает небольшие шаги, стремясь приложить минимум усилий для достижения цели и не уводить параметры слишком далеко от их стартовых позиций.

В оригинальном методе прореживания граница отсечения проводится горизонтально по оси $Y$. Веса, чья финальная амплитуда оказывается ниже определенного порога, приравниваются к нулю (маскируются нулем), а те, что выше порога, сохраняются (получают маску единицы) для последующего переобучения подсети.

🔧 Расширение алгоритма: новые критерии маскирования 6:58

Исследователи из Uber AI обобщили алгоритм лотерейного билета, разделив его на несколько настраиваемых этапов для проведения экспериментов. Сначала маска инициализируется единицами, а параметры сети заполняются случайными числами. Сеть обучается до конца, после чего к ней применяется специальный критерий маскирования. Он присваивает баллы каждому весу, ранжирует их по слоям и отсекает нижние проценты параметров, выставляя им маску нуля.

Вместо стандартного отбора по максимальной финальной амплитуде (Large Final) авторы протестировали альтернативные критерии:

Small Final: сохранение весов с наименьшей финальной амплитудой (контрольный инвертированный случай).
Large Init: отбор исключительно по величине начального веса, полностью игнорируя результаты обучения.
Small Init: контроль по наименьшей начальной амплитуде.
Large Init + Large Final: вес сохраняется только в том случае, если он был большим и на старте, и на финише.
Magnitude Increase: ранжирование весов по степени увеличения их абсолютного значения в процессе обучения.
Movement: оценка того, насколько далеко продвинулся вес по числовой оси без учета знака (например, переход из глубокого минуса в небольшой плюс считается большим движением).

Авторы статьи утверждают, что критерий Magnitude Increase (прирост амплитуды) демонстрирует наилучшие результаты, превосходя классический подход. Однако Янник Килчер относится к этому заявлению с сильным скепсисом.

Ведущий подчеркивает, что авторы проводили t-тест всего на пяти запусках, а на графиках отобразили не стандартное отклонение, а просто минимальные и максимальные значения. По мнению Килчера, данный критерий измеряет практически то же самое, что и классический Large Final, и его превосходство не является стабильным или статистически достоверным.

При этом такие варианты, как Large Init или комбинация Large Init + Large Final, закономерно показали себя гораздо хуже. Янник объясняет неудачу комбинации тем, что наложение двух порогов одновременно искусственно занижает индивидуальные планки отбора, размывая фокус на действительно важных весах.

🔀 Действия с выбранными весами: так ли важен знак? 16:55

Следующий блок экспериментов касается манипуляций с весами, вошедшими в «выигрышный билет» (действие «Маска 1»). Исследователи проверили три варианта подготовки подсети к реобучению: возврат к исходным значениям (Re-init), перемешивание весов внутри слоя (Reshuffle) и присвоение им константного значения.

Особое внимание в работе уделено сохранению знака веса. Конфигурация Init Sign гарантирует, что при перемешивании или замене веса константой ($\pm \alpha$) у него останется тот же знак (плюс или минус), который был при инициализации или в конце обучения.

Результаты показывают, что оригинальный алгоритм возврата весов, а также перемешивание весов с сохранением знака (Reshuffle Init Sign) и константная инициализация со знаком (Constant Init Sign) работают примерно на одном высоком уровне точности. Если же знаки распределить случайно (Random Sign), эффективность сети резко падает.

На этом основании авторы работы делают вывод, что ключевым фактором успеха подсети является именно правильный знак веса.

Янник Килчер категорически не согласен с такой интерпретацией. По его мнению, сохранение знака (Init Sign) просто математически гарантирует, что новые или перемешанные значения весов в среднем будут находиться ближе к исходным точкам оптимального лотерейного билета.

Ведущий считает, что дело не в магических свойствах знака, а в банальной геометрической близости к области притяжения оптимума (basin of attraction). Янник также сыронизировал над тем, что авторы заявляют о высокой значимости результатов на уровне $0.005$, имея выборку всего из пяти итераций, что недопустимо для серьезных выводов.

🗑️ Что делать с «неудачниками»: судьба отсеченных весов 22:12

Традиционно в алгоритмах прунинга не попавшие в подсеть веса (действие «Маска 0») обнуляются и замораживаются. Исследователи попробовали вместо обнуления оставлять их замороженными на уровне их начальных случайных значений ($W_i$). Выяснилось, что такой подход ощутимо ухудшает итоговую точность модели.

Авторы объясняют это тем, что раз веса оказались малы по амплитуде в конце обучения, их оптимальное значение действительно близко к нулю. Заморозка их в состоянии случайной инициализации лишь привносит в сеть лишний шумовой сигнал.

Чтобы проверить это, исследователи разработали более сложную схему: если в процессе обучения вес двигался вверх по амплитуде, но все равно остался ниже общего порога маскирования, его возвращают к значению $W_i$; если же он двигался вниз, его обнуляют. Этот гибридный метод показал результаты чуть лучше классического обнуления на экстремально малых объемах весов (когда в сети остается всего 1.2% параметров).

Еще более продвинутый вариант, примененный и к обучаемым весам ( Mask 1), продемонстрировал дополнительный прирост. В нем обучаемые веса, которые вопреки логике двигались вниз в процессе тренировки сети, принудительно обнулялись, так как их оптимальное значение явно стремилось к нулю.

Тем не менее, Янник Килчер считает эти манипуляции чрезмерно усложненными и переинтерпретированными. С его точки зрения, все эти трюки лишь пытаются искусственно подогнать параметры как можно ближе к их реальным оптимальным значениям, и оригинальная статья про лотерейные билеты уже отлично описала этот базовый принцип без лишней теоретической надстройки.

🦸 Супермаски: высокая точность без обучения весов 28:30

Финальная и самая интригующая часть исследования посвящена так называемым «супермаскам» (Supermasks). Авторы задались вопросом: что если наложить полученную маску на абсолютно случайную, необученную нейросеть?

Обычно необученная сеть на датасете MNIST выдает случайный результат в 10% точности, так как там представлено 10 классов рукописных цифр. Однако если применить к ней маску Large Final, то сеть без какого-либо изменения весов внезапно начинает показывать осмысленную точность — около 40% на MNIST и около 20% на более сложном датасете CIFAR-10.

Янник объясняет это тем, что маска оставляет нетронутыми те веса, которые при обычном обучении градиентным спуском и так почти не сдвинулись бы с места, изначально находясь близко к своему оптимуму.

Далее исследователи пошли еще дальше: они решили вообще не обучать веса сети, а оптимизировать саму бинарную маску с помощью SGD. Применив этот подход совместно со специальным методом динамического масштабирования весов (Dynamic Weight Rescaling), они получили поразительные результаты:

На датасете MNIST нейросеть с замороженными случайными весами и обученной супермаской смогла превзойти по точности обычную полностью обученную нейросеть.
Однако на более сложном датасете CIFAR-10 данный эффект полностью исчез — обученная супермаска не смогла дотянуться до качества стандартного обучения параметров.

На основе этого феномена Янник Килчер формулирует собственную гипотезу. Он полагает, что успех концепции лотерейных билетов и супермасок напрямую зависит от простоты решаемой задачи.

Датасет MNIST настолько легок, что для его успешного прохождения достаточно просто удачно отсечь часть случайных начальных весов. Но по мере усложнения задач (CIFAR-10, ImageNet, глубокие архитектуры вроде ResNet) эффективность подобных методов стремительно падает, пока не сходит на нет. Ведущий резюмирует, что сами эксперименты Uber AI выполнены великолепно, но их теоретические выводы кажутся ему избыточными.