# Янник Кильхер: «Супермаски и суперпозиция — это две разные идеи, случайно оказавшиеся в одной статье»

Источник: https://www.youtube.com/watch?v=Jqvb7jp4Nm8
Канал: Yannic Kilcher
Опубликовано: 08.07.2020

---

Янник Кильхер (Yannic Kilcher) возвращается к детальному разбору научной работы «Supermasks in Superposition», чтобы восполнить пробелы, оставленные в предыдущем обзоре. В этом дополнении автор анализирует математическую природу целевой функции G, доказывает независимость механизмов масок и суперпозиции через практический эксперимент, а также критикует формальный подход исследователей к описанию социального влияния ИИ-моделей.

## 🧠 Глубокое погружение в целевую функцию G
[[JUMP:02:02]]

В основе метода лежит задача обучения на протяжении всей жизни (lifelong learning), где модель последовательно осваивает набор задач, не забывая предыдущие [02:15]. Для каждой задачи создаётся отдельная «супермаска», которая накладывается на одну и ту же случайно инициализированную базовую нейросеть [02:28]. В момент инференса (вывода), если идентификатор задачи неизвестен, используется алгоритм суперпозиции: все маски накладываются одновременно, а затем анализируется градиент функции энтропии (или модифицированной функции G), чтобы определить, какая задача наиболее вероятна для текущих данных [02:55].

Янник Кильхер отмечает, что авторы статьи провели глубокий теоретический анализ функции G в приложении к тексту, что позволило лучше понять её интуитивную составляющую [04:05]:

*   **S-нейроны (superfluous neurons):** Это «лишние» нейроны, которые не участвуют в классификации, но используются функцией G для идентификации задачи [03:40].
*   **Мимикрия градиента:** По мнению Янника Кильхера, авторам удалось сконструировать функцию G таким образом, чтобы её градиент по отношению к логитам (выходам сети до софтмакса) совпадал с градиентом функции потерь при обучении с учителем (supervised loss) [07:39].
*   **Идентификация задачи:** Если данные принадлежат задаче $J$, то при вычислении производной по коэффициенту $\alpha$ (отвечающему за вес маски в суперпозиции), значение для «правильной» задачи будет выше нуля, а для всех остальных — ниже [10:46].

Автор видео объясняет это так: маска учится пропускать признаки, которые «гасят» активность лишних S-нейронов для конкретной задачи [17:34]. Если маска и данные совпадают, S-нейроны показывают низкую уверенность в ошибке. Если же данные подаются на «чужую» маску, S-нейроны реагируют непредсказуемо, что позволяет алгоритму отсеять неверный вариант [20:15].

## 🧩 Разделение понятий: супермаски против суперпозиции
[[JUMP:20:28]]

Одним из ключевых тезисов Янника Кильхера является утверждение, что «супермаски» и «суперпозиция» — это две абсолютно разные концепции, которые технически никак не связаны друг с другом [20:41].

По мнению ведущего:

*   **Супермаски** — это всего лишь специфический (и довольно грубый) способ обучения нейросети через выбор весов в перепараметризованной модели, напоминающий квантование [21:21].
*   **Суперпозиция** — это метод поиска нужной модели в ансамбле через градиентный спуск по коэффициентам смешивания [21:46].

Янник Кильхер выдвинул гипотезу: если взять обычные нейронные сети с обучаемыми весами (вместо масок) и сложить их в суперпозицию, метод распознавания задачи будет работать точно так же [22:15]. Чтобы доказать это, он провёл эксперимент в прямом эфире, изменив исходный код авторов статьи [22:57].

## 💻 Эксперимент: обучение без масок
[[JUMP:37:14]]

В ходе live-coding сессии Янник Кильхер модифицировал архитектуру, заменив бинарные маски на полноценные обучаемые веса (floats) [44:57].

Результаты эксперимента на наборе данных Permuted MNIST (5 задач):

*   **Точность с супермасками:** около 92,4% в среднем по задачам [41:26].
*   **Точность с полноценными весами:** повысилась до 93,9% [47:04].
*   **Точность определения задачи:** в обоих случаях составила 100% [42:31].

Этот результат подтверждает мнение Кильхера: использование масок выгодно лишь для экономии памяти (так как маски занимают меньше места, чем веса), но для самого механизма суперпозиции они не являются обязательными [48:16]. Автор также предполагает, что на сложных задачах (например, ImageNet на 1000 классов) супермаски будут значительно уступать в точности обычным сетям [23:51].

## ⚠️ Критика раздела «Broader Impact» (Социальное влияние)
[[JUMP:25:41]]

Янник Кильхер обращает внимание на то, как авторы статьи заполнили обязательный раздел о социальном влиянии технологий. По его словам, большинство исследователей используют три бесполезных метода написания таких разделов: заявляют о неприменимости, пишут общие фразы («технологии — это и хорошо, и плохо») или пытаются втиснуть в раздел дополнительную информацию о модели [27:53].

Однако в данном случае Янник Кильхер находит реальную проблему в предложенном методе, которую авторы упомянули лишь вскользь [32:47]:

1.  Алгоритм суперпозиции полагается на уверенность модели (энтропию). Он выбирает ту маску, которая «наиболее уверена» в ответе [26:45].
2.  Если одна задача объективно сложнее другой или для неё меньше данных (дисбаланс), модель для этой задачи будет всегда менее уверена в себе [26:59].
3.  В системе суперпозиции это приведет к «двойному наказанию» для маргинализированных групп (если рассматривать их распознавание как отдельные задачи): модель не только будет чаще ошибаться сама по себе, но алгоритм выбора задачи будет реже переключаться на неё, отдавая приоритет более «уверенным» маскам для доминирующих групп [35:12].

Янник Кильхер отмечает ироничность ситуации: авторы цитируют знаменитую работу «Gender Shades» (об алгоритмической предвзятости), но не видят, что их собственный метод может усугублять описанные в ней проблемы из-за математических особенностей калибровки энтропии [31:48].