Взлом черного ящика: как увидеть алгоритмы внутри нейросетей

Нейросети обладают удивительной способностью скрывать свои истинные алгоритмы за избыточными весами и «мусорными» компонентами, превращая попытки интерпретации в поиск иголки в стоге сена. Ли Шарки предлагает сменить фокус с наблюдения за «тенистыми» активациями на фундаментальную декомпозицию параметров, чтобы наконец увидеть механизм под капотом, а не только его результат. Этот переход от гадания к хирургической точности может стать ключом к превращению черных ящиков ИИ в инструменты для научных открытий.

🧠 За пределами «черного ящика»: переход к анализу параметров 0:25

Современная механистическая интерпретируемость проделала значительный путь, однако исследователи сталкиваются с фундаментальным ограничением. Традиционный подход, сфокусированный на анализе концепций через активации нейросети, оставляет сами слои модели «черными ящиками». Даже если мы понимаем, какие признаки (например, «шерсть» или «уши») активируются в определенном слое, это не объясняет, как именно нейросеть выполняет вычисления для преобразования этих данных на пути к конечному результату.

Более того, «ориентированный на признаки» подход страдает от потери важной информации. Активации в пространстве признаков могут быть разрозненными, тогда как структура их взаимного расположения часто критически важна. Например, дни недели в некоторых сетях представлены не случайными направлениями, а плоскостью, позволяющей выполнять простые вращательные операции — своего рода функцию перехода к следующему дню. Эти нюансы ускользают при анализе «концептов», что побудило экспертов, таких как Ли Шарки (Lee Sharkey), искать способы декомпозиции самих параметров сети.

🚀 От Apollo Research к Goodfire: новый этап в исследованиях 6:21

Смена исследовательской площадки Ли Шарки стала важным шагом для развития этой области. Ранее Ли Шарки был одним из основателей Apollo Research, где его команда фокусировалась на обнаружении и смягчении дедуктивного поведения в моделях-фронтирах, используя механистическую интерпретируемость как инструмент для «чтения мыслей» ИИ.

Со временем стало ясно, что Apollo Research эффективнее сосредоточиться на оценке моделей (evals), в то время как команда Ли Шарки нуждалась в ресурсах для более глубоких и вычислительно затратных задач механистической интерпретируемости. Переход в Goodfire, стартап, сооснователями которого являются Том Макгра и Эрик Хо, стал естественным развитием событий. Вместе с Ли Шарки в Goodfire перешли Дан Браун и Люциус Бушнак, чтобы продолжить работу над декомпозицией нейросетей. Важным фактором стала возможность привлечения частных инвестиций в размере 50 миллионов долларов, что обеспечивает необходимый масштаб вычислений, недоступный при исключительно филантропическом финансировании.

🛠 Параметры как истинный алгоритм 11:16

Основная идея перехода к анализу параметров заключается в том, что именно веса, архитектура и нелинейности нейросети составляют сам алгоритм, который модель «выучила» в процессе обучения. Активации — это лишь промежуточные результаты, «сопутствующие» вычислениям, в то время как параметры определяют способ преобразования входных данных в выходные.

Ранее в разговоре упоминались проблемы многомерных признаков в активациях и ограничения методов sparse autoencoders (SAE), которые оставляют без ответа вопрос о том, как именно происходит передача информации между слоями. Параметры же позволяют обнаружить модульность: сеть использует разные части своих весов для решения различных задач. Цель параметральной декомпозиции — извлечь эти скрытые механизмы, которые отвечают за конкретные вычисления, будь то распознавание кота или сложная логическая операция.

Таким образом, если активации — это переменные, то параметры — это правила, по которым эти переменные обрабатываются. Исследователи стремятся найти способ «разделить» сеть на более простые функциональные подсети, чтобы понять истинную логику работы ИИ, что может привести к созданию новых методов — от хирургического «разучивания» (unlearning) ненужных навыков до извлечения фундаментальных научных знаний из нейросетей.

🔄 Декомпозиция параметров: за пределами статических признаков 25:18

Современные методы интерпретируемости сталкиваются с фундаментальным вызовом: архитектуры трансформеров, использующие residual stream (остаточный поток), распределяют вычисления по множеству слоев. Традиционный подход, ориентированный на анализ активаций (например, через Sparse Autoencoders — SAE), часто не учитывает, что реальные вычисления могут представлять собой динамические трансформации, а не просто набор независимых «понятий».

Проблема многомерных признаков в активациях 26:26

Классическим примером ограничения линейных представлений являются «дни недели» или модульная арифметика. Исследования показывают, что модель не хранит семь отдельных «нейронов» для каждого дня недели, которые активируются независимо. Вместо этого признаки организуются в многомерную плоскость, где переход от одного дня к другому (например, от понедельника к вторнику) реализуется как геометрическое вращение вектора в этой плоскости.

Применение стандартных методов SAE к таким структурам часто неэффективно: они пытаются найти независимые «линейные направления», в то время как истинный алгоритм модели основан на тригонометрических вычислениях, где данные сначала проецируются в пространство углов, суммируются и затем возвращаются в исходное состояние. Это подчеркивает, что для понимания глубоких нейросетей нам необходимо анализировать не только статические репрезентации, но и динамику самих алгоритмических операций.

Ограничения метода Sparse Autoencoders (SAE) 33:17

Ли Шарки отмечает, что подход SAE может быть «слеп» к переиспользуемым функциям. Если в модели существует механизм, который выполняет одинаковое семантическое преобразование для разных входных данных (например, «вращение» для любого дня недели), SAE с большой вероятностью не идентифицирует этот общий механизм. Вместо этого он может «раздробить» его, создав множество избыточных признаков, специфичных для конкретных условий.

Проблема заключается в том, что SAE фокусируется на поиске разреженных состояний в активациях, тогда как модель может «сжимать» свои вычисления, используя одну и ту же функцию для широкого спектра входных сигналов. Это создает риск неполного понимания: мы видим «результаты» вычислений, но пропускаем сами «функции» или «алгоритмы», которые их порождают. Переход к более мощным моделям только усугубляет эту ситуацию: нейросети все чаще используют абстрактные функции, работающие над целыми пространствами входных данных, а не просто комбинируют дискретные признаки.

Метод декомпозиции параметров (APD) 41:39

Для решения этих проблем предлагается метод декомпозиции параметров на основе атрибуции (APD) — процесс, который можно назвать «разъединением» (unmerging) модели. Если классическое объединение моделей (model merging) пытается соединить две разные сети в одну, то APD идет обратным путем: он представляет исходную сеть как сумму множества простых, независимых экспертных подсетей.

Эта концепция вводит дополнительное измерение интерпретируемости. Вместо попыток понять модель через структуру её слоев и ширину слоев, APD вводит вертикальное «измерение высоты», где каждая «высота» соответствует конкретной элементарной вычислительной операции. Идея состоит в том, что внутри сети скрыто гораздо больше вычислительных механизмов, чем кажется на первый взгляд, и их наложение (суперпозиция) позволяет модели экономить ресурсы и подавлять шум.

Три кита функции потерь в APD 49:48

Успешная декомпозиция модели на элементарные «параметрические компоненты» требует соблюдения строгих математических ограничений, объединенных в общую функцию потерь:

Точность (Faithfulness): Сумма всех найденных экспертных подсетей должна в точности воспроизводить параметры исходной целевой модели.
Минимальность (Minimality): Необходимо ограничить количество одновременно активных компонентов для любого конкретного входа, чтобы добиться разреженности и отсечь «шумовые» вычисления.
Простота (Simplicity): Каждая выделенная подсеть должна быть максимально элементарной, чтобы её логика поддавалась человеческому анализу.

Ранее в разговоре они касались рисков, связанных с градиентной атрибуцией, однако метод APD фокусируется на декомпозиции самих весов, что позволяет рассматривать сеть как совокупность атомарных вычислительных юнитов, выполняющих конкретную задачу.

🗑️ Ловушки избыточности: «мусорные» компоненты и пределы градиентов 50:13

При разработке методов декомпозиции параметров Ли Шарки (Lee Sharkey) и его команда столкнулись с фундаментальными проблемами, которые делают нейросети «неудобными» для прямой интерпретации. Главная сложность заключается в том, что современные модели обладают колоссальной избыточностью. В процессе обучения они находят множество способов реализовать один и тот же алгоритм, что порождает проблему вырожденности (degeneracy) . Это приводит к тому, что при попытке разложить модель на составляющие компоненты, мы рискуем обнаружить не «чистые» алгоритмы, а вычислительный шум.

Проблема «мусорных» компонентов и избыточность весов 54:41

Одним из ключевых рисков при разделении нейросети на подсети является возникновение так называемых «мусорных заглушек» или «компонентов-поглотителей» (junk sinks) . В теории, при декомпозиции параметров на несколько вертикальных слоев, каждый из них должен нести осмысленную нагрузку. Однако на практике возникает вопрос верности (faithfulness): если сумма всех компонентов дает исходную модель, как гарантировать, что один компонент не учится просто компенсировать или «отменять» ошибки другого? .

Ли Шарки выделяет несколько причин этого явления:

Масштабная вырожденность: Простейший пример — работа с функцией активации ReLU. Можно увеличить веса перед ней и пропорционально уменьшить после — результат вычислений в остаточном потоке (residual stream) останется неизменным, но значения параметров изменятся .
Ортогональные направления: В перепараметризованных моделях существуют целые направления в пространстве параметров, которые практически не влияют на выходные данные при текущем распределении входных токенов . Эти «мертвые зоны» могут абсорбировать изменения градиентов, создавая видимость вычислений там, где их нет.
Концептуальный разрыв: Существует опасность обучить «интерпретатор», который находит в модели структуру, не используемую самой моделью . Шарки приводит аналогию с экспериментами Нила Нанды над игрой Отелло: если мы обучаем большой классификатор предсказывать состояние доски по весам, это еще не значит, что сама нейросеть «понимает» семантику игры так же, как наш классификатор .

В избыточных моделях (например, MNIST достаточного размера) такие «мусорные» компоненты могут существовать, не влияя на итоговый алгоритм, но создавая огромные трудности для тех, кто пытается этот алгоритм расшифровать .

Почему градиентная атрибуция дает ложные сигналы 1:04:18

Первые итерации метода APD (декомпозиции на основе атрибуции), о котором Ли Шарки рассказывал ранее, сильно зависели от градиентных методов оценки значимости параметров. Как выяснилось, это «хрупкое» решение. Ли называет этот алгоритм «крайне капризным» (janky) из-за его нестабильности и высокой чувствительности к гиперпараметрам .

Главная теоретическая проблема заключается в том, что градиенты являются лишь грубым прокси для определения важности компонента. Существует критический сценарий, в котором градиентная атрибуция полностью проваливается: насыщение механизмов .

Рассмотрим механизм внимания (attention) в трансформере. Если модель очень сильно фокусируется на одном конкретном токене (вес внимания близок к 1, а остальные — к 0), то небольшое изменение параметров в этой точке практически не изменит результат . В этой зоне «насыщения» градиент будет близок к нулю. Следовательно, метод, основанный на градиентах, классифицирует этот механизм как незначимый, хотя на самом деле он является критически важным для работы алгоритма в данный момент .

Технологический тупик APD и потребность в обновлении 1:05:21

Помимо фундаментальных проблем с градиентами, Ли Шарки выделяет ряд практических препятствий, которые сделали метод APD сложным для масштабирования:

Дискретность оптимизации: Использование параметра Top-K (выбор K самых важных компонентов для входа) создает разрывы в функции потерь . Малейшее изменение весов может привести к тому, что вместо одного компонента активируется другой, радикально меняя поведение модели. Это делает оптимизацию с помощью градиентного спуска крайне неэффективной .
Систематические смещения: Если атрибуция изначально неточна или смещена, в ландшафте обучения может просто не существовать стабильного оптимума. Ошибки в оценке важности «подталкивают» параметры в неверном направлении, что вызывает цепную реакцию нестабильности .
Вычислительная дороговизна: Инициализация каждого компонента как полной копии оригинальной модели (со всеми её слоями и рангами) требует колоссальных ресурсов .

Эти ограничения подтолкнули команду Goodfire к переходу от APD к новому методу — стохастической декомпозиции параметров (SPD). Вместо того чтобы полагаться на капризные градиенты, исследователи решили использовать причинно-следственную значимость (causal importance) и разбивать веса на атомарные матрицы первого ранга . Это позволило отойти от «рискованных» попыток декомпозиции всей сети сразу и перейти к более точной хирургической сборке алгоритмов из мелких деталей .

🧩 Стохастическая декомпозиция параметров 1:15:38

В отличие от ранних подходов, стохастическая декомпозиция параметров (SPD) предлагает более гибкий способ анализа весов нейросети. Основная идея заключается в том, что мы не просто разбиваем матрицу на компоненты, а обучаем систему, которая позволяет динамически определять вклад этих компонентов в процесс вычислений.

При инициализации процесса декомпозиции возникает интересный вопрос о математической строгости. Если мы задаемся целью разбить 10 000 подкомпонентов так, чтобы их сумма в точности соответствовала исходным параметрам модели, возникает проблема остатка. Ли Шарки отмечает, что если ограничить 9 999 компонентов рангом один, то последний «остаточный» компонент может получить произвольный ранг. Тем не менее, для практических целей это не является препятствием: использование рандомизированной инициализации позволяет компонентам эффективно ориентироваться в пространстве, сохраняя косинусное сходство с исходной моделью как минимум на уровне выше нуля.

Матрицы первого ранга как атомы вычислений 1:18:27

Переход к декомпозиции матриц на компоненты первого ранга радикально меняет восприятие того, как работает модель. Если исходная матрица — это сложный «черный ящик», оперирующий в $n$-мерном пространстве сразу, то компоненты первого ранга служат элементарными «атомами» вычислений.

Чтение и запись: Матрица первого ранга считывает информацию только в одном направлении (определяемом правым сингулярным вектором) и записывает её в другом (определяемом левым сингулярным вектором).
Суперпозиция: По аналогии с признаками в активациях, в пространстве параметров мы можем использовать больше рангов, чем имеется реальных размерностей (нейронов), что позволяет модели упаковывать больше «вещей в мире» в ограниченный бюджет параметров.
Эффективность: Хотя это кажется усложнением, Ли Шарки предполагает, что метод может оказаться эффективнее разреженных автокодировщиков (SAE). В отличие от SAE, где число латентных признаков часто не ограничено сверху, SPD имеет естественное ограничение — компоненты должны в сумме давать параметры исходной модели, что заставляет систему «сходиться» быстрее.

Оценка причинно-следственной значимости через маскирование 1:30:52

Одной из самых инновационных частей SPD является замена классической градиентной атрибуции на обучаемую функцию причинно-следственной значимости. Ранее в разговоре они касались проблем градиентных методов, которые не всегда адекватно отражают реальное влияние компонента на выход.

В рамках SPD модель учится предсказывать «отключаемость» (ablatability) конкретного подкомпонента для заданного входного сигнала. Это реализовано как функция, выдающая число от 0 до 1:

Если значение равно 0, компонент признается каузально нерелевантным для данного входа, и его можно «замаскировать» (отключить) без вреда для предсказания.
Если значение равно 1, компонент критически важен, и его отключение приведет к потере точности.

Вместо сложной архитектуры, которая была бы чрезмерно тяжелой, исследователи внедрили небольшую «пороговую» сеть (около 16–128 параметров), анализирующую перекрытие между активациями и правыми сингулярными векторами компонентов. Эта сеть использует «трюк с репараметризацией», позволяя градиентам протекать через процесс случайного маскирования. В результате модель сама учится «отбрасывать» ненужные вычисления на лету, что открывает путь к созданию специализированных подсетей, решающих только конкретные задачи.

🔍 Путь к прозрачности: от тонкой настройки до новых открытий

Проблема избыточного дробления признаков

Одной из фундаментальных проблем, с которыми сталкиваются исследователи при попытке интерпретировать нейросети, является избыточное дробление признаков (feature splitting). Ли Шарки объясняет, что в методах типа разреженных автокодировщиков (SAE) стремление к более детальному разрешению часто приводит к парадоксальным результатам. Вместо того чтобы выявлять истинные алгоритмические единицы, модель начинает «дробить» понятия до абсурда.

Например, вместо того чтобы просто выделить концепт «ваниль», модель может создать отдельные признаки для «французской ванили» и «обычной ванили». По мнению Ли, это часто является «патологическим» случаем: модель может не использовать эти различия в своих реальных вычислениях, что делает интерпретацию избыточной и бесполезной. Еще более критичной проблемой становится «поглощение признаков», когда при увеличении емкости автокодировщика один общий признак (например, слова на букву «Е») искусственно раздувается до множества мелких, включая конкретные слова типа «слон», хотя для логики нейросети такое разделение может быть совершенно чуждым. Ли подчеркивает, что текущие методы не гарантируют, что найденные признаки соответствуют реальным переменным, которыми оперирует модель, что требует разработки более минималистичных и точных подходов.

Масштабирование SPD на большие языковые модели 1:54:31

Успехи стохастической декомпозиции параметров (SPD) открывают новые горизонты для анализа архитектур промышленного масштаба. Команда Goodfire уже начала процесс переноса своих методов на более мощные системы. Как отмечает Ли Шарки, эксперименты уже ведутся на трансформерах и языковых моделях мощностью в несколько миллиардов параметров (3B, 7B).

Масштабирование сопровождается важными эмпирическими вопросами. Основная задача — понять, насколько вообще поддаются разложению веса таких моделей. Не исключено, что в крупных сетях компоненты имеют слишком высокий ранг для прямой интерпретации, что потребует дополнительных этапов анализа. Тем не менее, возможность получить декомпозицию, где каждый субкомпонент можно изолировать, является критически важным шагом для преодоления барьера «черного ящика» в больших моделях.

Хирургическое «разучивание» и детекция обмана 1:56:54

Одним из наиболее перспективных практических применений интерпретируемости параметров является возможность безопасного «разучивания» (unlearning) нежелательных навыков. Поскольку метод позволяет работать непосредственно в пространстве параметров, эксперты получают прямой рычаг воздействия на конкретные функции модели.

Это открывает путь к созданию гораздо более точных инструментов мониторинга, чем современные аналоги. Ли приводит в пример детекцию обмана: ИИ может проявлять склонность к манипуляции в различных контекстах, где входные данные различаются. Если раньше методы, сфокусированные только на активациях, могли упускать из виду общую структуру такой «функции обмана» из-за ее распределенной природы, то подход через декомпозицию параметров позволяет идентифицировать конкретные компоненты, отвечающие за это поведение. Это делает задачу «хирургического» удаления опасных механизмов из архитектуры модели принципиально решаемой.

Извлечение новых научных знаний 1:59:13

Интерпретируемость параметров — это не только инструмент контроля, но и потенциальный способ расширения человеческого знания. Ли Шарки с оптимизмом смотрит на идею использования моделей как соавторов в научных исследованиях. Многие современные ИИ уже демонстрируют навыки, превосходящие человеческие в специфических задачах.

Суть идеи заключается в том, чтобы «думать в терминах модели». Если мы сможем декомпозировать веса модели, обученной на научных данных, мы получим шанс увидеть, какие именно алгоритмические зависимости или физические закономерности «выучил» ИИ. Это превращает процесс обучения нейросети из накопления статистических корреляций в потенциальный инструмент для совершения фундаментальных научных открытий, где модель выступает как объект для изучения, хранящий в своих параметрах скрытую логику природы.