Янник Кильхер (Yannic Kilcher) возвращается к детальному разбору научной работы «Supermasks in Superposition», чтобы восполнить пробелы, оставленные в предыдущем обзоре. В этом дополнении автор анализирует математическую природу целевой функции G, доказывает независимость механизмов масок и суперпозиции через практический эксперимент, а также критикует формальный подход исследователей к описанию социального влияния ИИ-моделей.
🧠 Глубокое погружение в целевую функцию G 2:02
В основе метода лежит задача обучения на протяжении всей жизни (lifelong learning), где модель последовательно осваивает набор задач, не забывая предыдущие . Для каждой задачи создаётся отдельная «супермаска», которая накладывается на одну и ту же случайно инициализированную базовую нейросеть . В момент инференса (вывода), если идентификатор задачи неизвестен, используется алгоритм суперпозиции: все маски накладываются одновременно, а затем анализируется градиент функции энтропии (или модифицированной функции G), чтобы определить, какая задача наиболее вероятна для текущих данных .
Янник Кильхер отмечает, что авторы статьи провели глубокий теоретический анализ функции G в приложении к тексту, что позволило лучше понять её интуитивную составляющую :
- S-нейроны (superfluous neurons): Это «лишние» нейроны, которые не участвуют в классификации, но используются функцией G для идентификации задачи .
- Мимикрия градиента: По мнению Янника Кильхера, авторам удалось сконструировать функцию G таким образом, чтобы её градиент по отношению к логитам (выходам сети до софтмакса) совпадал с градиентом функции потерь при обучении с учителем (supervised loss) .
- Идентификация задачи: Если данные принадлежат задаче $J$, то при вычислении производной по коэффициенту $\alpha$ (отвечающему за вес маски в суперпозиции), значение для «правильной» задачи будет выше нуля, а для всех остальных — ниже .
Автор видео объясняет это так: маска учится пропускать признаки, которые «гасят» активность лишних S-нейронов для конкретной задачи . Если маска и данные совпадают, S-нейроны показывают низкую уверенность в ошибке. Если же данные подаются на «чужую» маску, S-нейроны реагируют непредсказуемо, что позволяет алгоритму отсеять неверный вариант .
🧩 Разделение понятий: супермаски против суперпозиции 20:28
Одним из ключевых тезисов Янника Кильхера является утверждение, что «супермаски» и «суперпозиция» — это две абсолютно разные концепции, которые технически никак не связаны друг с другом .
По мнению ведущего:
- Супермаски — это всего лишь специфический (и довольно грубый) способ обучения нейросети через выбор весов в перепараметризованной модели, напоминающий квантование .
- Суперпозиция — это метод поиска нужной модели в ансамбле через градиентный спуск по коэффициентам смешивания .
Янник Кильхер выдвинул гипотезу: если взять обычные нейронные сети с обучаемыми весами (вместо масок) и сложить их в суперпозицию, метод распознавания задачи будет работать точно так же . Чтобы доказать это, он провёл эксперимент в прямом эфире, изменив исходный код авторов статьи .
💻 Эксперимент: обучение без масок 37:14
В ходе live-coding сессии Янник Кильхер модифицировал архитектуру, заменив бинарные маски на полноценные обучаемые веса (floats) .
Результаты эксперимента на наборе данных Permuted MNIST (5 задач):
- Точность с супермасками: около 92,4% в среднем по задачам .
- Точность с полноценными весами: повысилась до 93,9% .
- Точность определения задачи: в обоих случаях составила 100% .
Этот результат подтверждает мнение Кильхера: использование масок выгодно лишь для экономии памяти (так как маски занимают меньше места, чем веса), но для самого механизма суперпозиции они не являются обязательными . Автор также предполагает, что на сложных задачах (например, ImageNet на 1000 классов) супермаски будут значительно уступать в точности обычным сетям .
⚠️ Критика раздела «Broader Impact» (Социальное влияние) 25:41
Янник Кильхер обращает внимание на то, как авторы статьи заполнили обязательный раздел о социальном влиянии технологий. По его словам, большинство исследователей используют три бесполезных метода написания таких разделов: заявляют о неприменимости, пишут общие фразы («технологии — это и хорошо, и плохо») или пытаются втиснуть в раздел дополнительную информацию о модели .
Однако в данном случае Янник Кильхер находит реальную проблему в предложенном методе, которую авторы упомянули лишь вскользь :
- Алгоритм суперпозиции полагается на уверенность модели (энтропию). Он выбирает ту маску, которая «наиболее уверена» в ответе .
- Если одна задача объективно сложнее другой или для неё меньше данных (дисбаланс), модель для этой задачи будет всегда менее уверена в себе .
- В системе суперпозиции это приведет к «двойному наказанию» для маргинализированных групп (если рассматривать их распознавание как отдельные задачи): модель не только будет чаще ошибаться сама по себе, но алгоритм выбора задачи будет реже переключаться на неё, отдавая приоритет более «уверенным» маскам для доминирующих групп .
Янник Кильхер отмечает ироничность ситуации: авторы цитируют знаменитую работу «Gender Shades» (об алгоритмической предвзятости), но не видят, что их собственный метод может усугублять описанные в ней проблемы из-за математических особенностей калибровки энтропии .