Янник Кильхер: «Супермаски и суперпозиция — это две разные идеи, случайно оказавшиеся в одной статье»

Янник Кильхер (Yannic Kilcher) возвращается к детальному разбору научной работы «Supermasks in Superposition», чтобы восполнить пробелы, оставленные в предыдущем обзоре. В этом дополнении автор анализирует математическую природу целевой функции G, доказывает независимость механизмов масок и суперпозиции через практический эксперимент, а также критикует формальный подход исследователей к описанию социального влияния ИИ-моделей.

🧠 Глубокое погружение в целевую функцию G 2:02

В основе метода лежит задача обучения на протяжении всей жизни (lifelong learning), где модель последовательно осваивает набор задач, не забывая предыдущие . Для каждой задачи создаётся отдельная «супермаска», которая накладывается на одну и ту же случайно инициализированную базовую нейросеть . В момент инференса (вывода), если идентификатор задачи неизвестен, используется алгоритм суперпозиции: все маски накладываются одновременно, а затем анализируется градиент функции энтропии (или модифицированной функции G), чтобы определить, какая задача наиболее вероятна для текущих данных .

Янник Кильхер отмечает, что авторы статьи провели глубокий теоретический анализ функции G в приложении к тексту, что позволило лучше понять её интуитивную составляющую :

S-нейроны (superfluous neurons): Это «лишние» нейроны, которые не участвуют в классификации, но используются функцией G для идентификации задачи .
Мимикрия градиента: По мнению Янника Кильхера, авторам удалось сконструировать функцию G таким образом, чтобы её градиент по отношению к логитам (выходам сети до софтмакса) совпадал с градиентом функции потерь при обучении с учителем (supervised loss) .
Идентификация задачи: Если данные принадлежат задаче $J$, то при вычислении производной по коэффициенту $\alpha$ (отвечающему за вес маски в суперпозиции), значение для «правильной» задачи будет выше нуля, а для всех остальных — ниже .

Автор видео объясняет это так: маска учится пропускать признаки, которые «гасят» активность лишних S-нейронов для конкретной задачи . Если маска и данные совпадают, S-нейроны показывают низкую уверенность в ошибке. Если же данные подаются на «чужую» маску, S-нейроны реагируют непредсказуемо, что позволяет алгоритму отсеять неверный вариант .

🧩 Разделение понятий: супермаски против суперпозиции 20:28

Одним из ключевых тезисов Янника Кильхера является утверждение, что «супермаски» и «суперпозиция» — это две абсолютно разные концепции, которые технически никак не связаны друг с другом .

По мнению ведущего:

Супермаски — это всего лишь специфический (и довольно грубый) способ обучения нейросети через выбор весов в перепараметризованной модели, напоминающий квантование .
Суперпозиция — это метод поиска нужной модели в ансамбле через градиентный спуск по коэффициентам смешивания .

Янник Кильхер выдвинул гипотезу: если взять обычные нейронные сети с обучаемыми весами (вместо масок) и сложить их в суперпозицию, метод распознавания задачи будет работать точно так же . Чтобы доказать это, он провёл эксперимент в прямом эфире, изменив исходный код авторов статьи .

💻 Эксперимент: обучение без масок 37:14

В ходе live-coding сессии Янник Кильхер модифицировал архитектуру, заменив бинарные маски на полноценные обучаемые веса (floats) .

Результаты эксперимента на наборе данных Permuted MNIST (5 задач):

Точность с супермасками: около 92,4% в среднем по задачам .
Точность с полноценными весами: повысилась до 93,9% .
Точность определения задачи: в обоих случаях составила 100% .

Этот результат подтверждает мнение Кильхера: использование масок выгодно лишь для экономии памяти (так как маски занимают меньше места, чем веса), но для самого механизма суперпозиции они не являются обязательными . Автор также предполагает, что на сложных задачах (например, ImageNet на 1000 классов) супермаски будут значительно уступать в точности обычным сетям .

⚠️ Критика раздела «Broader Impact» (Социальное влияние) 25:41

Янник Кильхер обращает внимание на то, как авторы статьи заполнили обязательный раздел о социальном влиянии технологий. По его словам, большинство исследователей используют три бесполезных метода написания таких разделов: заявляют о неприменимости, пишут общие фразы («технологии — это и хорошо, и плохо») или пытаются втиснуть в раздел дополнительную информацию о модели .

Однако в данном случае Янник Кильхер находит реальную проблему в предложенном методе, которую авторы упомянули лишь вскользь :

Алгоритм суперпозиции полагается на уверенность модели (энтропию). Он выбирает ту маску, которая «наиболее уверена» в ответе .
Если одна задача объективно сложнее другой или для неё меньше данных (дисбаланс), модель для этой задачи будет всегда менее уверена в себе .
В системе суперпозиции это приведет к «двойному наказанию» для маргинализированных групп (если рассматривать их распознавание как отдельные задачи): модель не только будет чаще ошибаться сама по себе, но алгоритм выбора задачи будет реже переключаться на неё, отдавая приоритет более «уверенным» маскам для доминирующих групп .

Янник Кильхер отмечает ироничность ситуации: авторы цитируют знаменитую работу «Gender Shades» (об алгоритмической предвзятости), но не видят, что их собственный метод может усугублять описанные в ней проблемы из-за математических особенностей калибровки энтропии .