Янник Кильхер: «Супермаски и суперпозиция — это две разные идеи, случайно оказавшиеся в одной статье»

Yannic Kilcher 2,9 тыс. 48 мин 4 мин 08.07.2020
Главное

Янник Кильхер (Yannic Kilcher) возвращается к детальному разбору научной работы «Supermasks in Superposition», чтобы восполнить пробелы, оставленные в предыдущем обзоре. В этом дополнении автор анализирует математическую природу целевой функции G, доказывает независимость механизмов масок и суперпозиции через практический эксперимент, а также критикует формальный подход исследователей к описанию социального влияния ИИ-моделей.

🧠 Глубокое погружение в целевую функцию G 2:02

В основе метода лежит задача обучения на протяжении всей жизни (lifelong learning), где модель последовательно осваивает набор задач, не забывая предыдущие . Для каждой задачи создаётся отдельная «супермаска», которая накладывается на одну и ту же случайно инициализированную базовую нейросеть . В момент инференса (вывода), если идентификатор задачи неизвестен, используется алгоритм суперпозиции: все маски накладываются одновременно, а затем анализируется градиент функции энтропии (или модифицированной функции G), чтобы определить, какая задача наиболее вероятна для текущих данных .

Янник Кильхер отмечает, что авторы статьи провели глубокий теоретический анализ функции G в приложении к тексту, что позволило лучше понять её интуитивную составляющую :

Автор видео объясняет это так: маска учится пропускать признаки, которые «гасят» активность лишних S-нейронов для конкретной задачи . Если маска и данные совпадают, S-нейроны показывают низкую уверенность в ошибке. Если же данные подаются на «чужую» маску, S-нейроны реагируют непредсказуемо, что позволяет алгоритму отсеять неверный вариант .

🧩 Разделение понятий: супермаски против суперпозиции 20:28

Одним из ключевых тезисов Янника Кильхера является утверждение, что «супермаски» и «суперпозиция» — это две абсолютно разные концепции, которые технически никак не связаны друг с другом .

По мнению ведущего:

Янник Кильхер выдвинул гипотезу: если взять обычные нейронные сети с обучаемыми весами (вместо масок) и сложить их в суперпозицию, метод распознавания задачи будет работать точно так же . Чтобы доказать это, он провёл эксперимент в прямом эфире, изменив исходный код авторов статьи .

💻 Эксперимент: обучение без масок 37:14

В ходе live-coding сессии Янник Кильхер модифицировал архитектуру, заменив бинарные маски на полноценные обучаемые веса (floats) .

Результаты эксперимента на наборе данных Permuted MNIST (5 задач):

Этот результат подтверждает мнение Кильхера: использование масок выгодно лишь для экономии памяти (так как маски занимают меньше места, чем веса), но для самого механизма суперпозиции они не являются обязательными . Автор также предполагает, что на сложных задачах (например, ImageNet на 1000 классов) супермаски будут значительно уступать в точности обычным сетям .

⚠️ Критика раздела «Broader Impact» (Социальное влияние) 25:41

Янник Кильхер обращает внимание на то, как авторы статьи заполнили обязательный раздел о социальном влиянии технологий. По его словам, большинство исследователей используют три бесполезных метода написания таких разделов: заявляют о неприменимости, пишут общие фразы («технологии — это и хорошо, и плохо») или пытаются втиснуть в раздел дополнительную информацию о модели .

Однако в данном случае Янник Кильхер находит реальную проблему в предложенном методе, которую авторы упомянули лишь вскользь :

  1. Алгоритм суперпозиции полагается на уверенность модели (энтропию). Он выбирает ту маску, которая «наиболее уверена» в ответе .
  2. Если одна задача объективно сложнее другой или для неё меньше данных (дисбаланс), модель для этой задачи будет всегда менее уверена в себе .
  3. В системе суперпозиции это приведет к «двойному наказанию» для маргинализированных групп (если рассматривать их распознавание как отдельные задачи): модель не только будет чаще ошибаться сама по себе, но алгоритм выбора задачи будет реже переключаться на неё, отдавая приоритет более «уверенным» маскам для доминирующих групп .

Янник Кильхер отмечает ироничность ситуации: авторы цитируют знаменитую работу «Gender Shades» (об алгоритмической предвзятости), но не видят, что их собственный метод может усугублять описанные в ней проблемы из-за математических особенностей калибровки энтропии .

💬 Цитаты

«Супермаски — это просто способ обучить нейронную сеть в грубой форме. Я не думаю, что здесь есть глубокая связь между маской и сетью.»

Янник Кильхер 20:53

«Этот метод будет дважды наказывать классификатор, который менее уверен в себе, что приведет к росту системного смещения.»

Янник Кильхер 35:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
S-нейроны
Superfluous neurons (избыточные нейроны) — дополнительные выходы сети, используемые для определения того, к какой задаче относятся входные данные.
Суперпозиция
Метод одновременного наложения нескольких масок или моделей с целью поиска оптимальной комбинации для неизвестных данных.
Логиты
Ненормализованные выходные значения нейронной сети перед применением функции Softmax.
Permuted MNIST
Вариант классического набора данных рукописных цифр, где пиксели случайным образом перемешаны для создания разных, но похожих задач.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Supermasks Янник Кильхер Superposition Lifelong learning S-neurons