Вскрытие «черного ящика»: как Goodfire превращает ИИ-безопасность в точную инженерию

Стартап Goodfire, основанный инженерами и исследователями Дэном Бальзамом и Томом Макгратом, ставит перед собой амбициозную цель — превратить искусственный интеллект из «черного ящика» в полностью прозрачную и безопасную систему. Привлекая 7 миллионов долларов инвестиций, команда разрабатывает инструменты промышленного масштаба на основе редких автокодировщиков (Sparse Autoencoders). В глубоком интервью для подкаста The Cognitive Revolution сооснователи проекта обсудили текущее состояние науки об интерпретируемости, архитектурные вызовы больших языковых моделей и то, как понимание внутренних процессов ИИ может совершить революцию в фундаментальной науке.

🧩 От «черного ящика» к прозрачным механизмам: эволюция ИИ-интерпретируемости 9:14

В течение долгого времени интерпретируемость нейросетей оставалась крайне непопулярным направлением исследований. Многие ученые полагали, что внутри ИИ-моделей нет устойчивой структуры, которую можно выявить, а сами алгоритмы представляют собой слишком сложный хаотичный массив чисел.

Однако со временем доказательства обратного начали накапливаться. Поворотной точкой стал переход от кустарного анализа отдельных нейронов к масштабному изучению внутренних состояний системы на промышленном уровне.

Этот подход получил название «механистическая интерпретируемость». Его цель — пошагово разобрать внутренние алгоритмы модели ИИ layer-by-layer, в отличие от методов вроде карт важности признаков (saliency maps) или LIME, которые оценивают лишь связь между входом и выходом.

Истоки феномена уходят в 2017 год, когда инженеры OpenAI обнаружили в ИИ-предсказателе отзывов Amazon один-единственный нейрон, спонтанно ставший передовым классификатором тональности текста. Это доказало, что даже при простом обучении предсказанию следующего токена внутри нейросетей возникают сложные концептуальные репрезентации.

🧠 Полисемантичность и суперпозиция: как ИИ упаковывает мир в геометрию 13:49

Главным препятствием для ранней науки об интерпретируемости была полисемантичность нейронов. Это свойство, при котором один и тот же нейрон активируется на совершенно разные, не связанные между собой концепты.

По словам Тома Макграта, один визуальный нейрон может одновременно реагировать как на автомобильные колеса, так и на кошачьи уши. Это доказывало распределенный характер кодирования информации внутри систем.

Исследовательская группа Криса Ола в Anthropic приложила колоссальные усилия для изучения суперпозиции и полисемантичности. Их работа дала сообществу смелость применить сверхширокие многослойные перцептроны для решения этой проблемы.

CTO Goodfire Дэн Бальзам предлагает рассматривать обучающиеся системы через призму сжатия данных. По мнению Бальзама, модель постоянно ищет баланс между универсальностью и сложностью: стремясь минимизировать потери и оставаться компактной, она вынуждена формировать внутренние иерархические структуры для объяснения закономерностей в данных.

В процессе современного обучения модель видит каждую уникальную точку данных лишь один раз. Как утверждает главный ученый Goodfire Том Макграт, это лишает ИИ возможности простого зазубривания текста и заставляет создавать переиспользуемые обобщенные признаки в условиях жестко ограниченной емкости параметров.

🎛️ Анатомия трансформера: что происходит внутри остаточного потока 29:21

Для понимания «внутренней кухни» больших моделей сооснователи Goodfire используют метафору многопоточной программы, где каждый токен запускает свой независимый поток вычислений.

Роль оперативной памяти (RAM) в этой схеме выполняет остаточный поток (residual stream), куда промежуточные слои записывают результаты вычислений. Дэн Бальзам объясняет, что каждый слой трансформера выполняет линейные преобразования остаточного потока, обновляя глобальные переменные для последующих функций.

Масштаб этой «памяти» огромен. В модели Llama 3 с 8 миллиардами параметров размерность остаточного потока составляет 4096 чисел, а в версии на 405 миллиардов параметров — 16384 числа.

По словам Макграта, процесс обработки информации устроен следующим образом:

Первые слои занимаются детокенизацией. Например, разбитое на токены имя сущности объединяется в единый понятийный супертокен.
Ранние и средние слои многослойных перцептронов (MLP) извлекают из памяти факты, связанные с этой сущностью, и «вбрасывают» их в остаточный поток.
Слои внимания (attention) извлекают нужные признаки из потока на основе контекста предложения.
Финальные слои калибруют варианты и схлопывают распределение до конкретного следующего слова.

Для верификации этих скрытых процессов ученые используют такие инструменты, как «логистическая линза» (logit lens) и метод каузального трассирования (causal tracing). Последний инструмент, разработанный группой Дэвида Бау, позволяет изолировать ключевые участки сети, незаменимые для вспоминания фактов.

📐 Гипотеза универсальности: мыслят ли ИИ и люди одинаково? 38:05

Исследования механистической интерпретируемости подталкивают к фундаментальному вопросу об универсальности познания. Гипотеза универсальности гласит: когда нейросети обучаются на похожих распределениях данных, они формируют схожие внутренние репрезентации.

Дэн Бальзам отмечает, что иерархия признаков в ИИ-моделях компьютерного зрения поразительно похожа на устройство зрительной коры человеческого мозга, которая является одной из самых изученных областей в нейробиологии.

В недавней статье в журнале Nature под авторством Джамали и др. было показано, что отдельные биологические нейроны человека при восприятии речи демонстрируют структуру, напоминающую полисемантичность и эмбеддинги искусственных сетей.

По мнению Бальзама, это указывает на глубокое сходство механизмов обучения биологических и искусственных систем. Человеческая интуиция о структурировании информации может быть ошибочной просто потому, что мы пока плохо понимаем работу собственного мозга.

Биологический мозг, как и искусственная модель, имеет встроенный фактор регуляризации. Для человека это стремление минимизировать затраты энергии на поддержание синаптических связей.

Том Макграт приводит в пример систему AlphaZero, которая, никогда не видя человеческих партий, самостоятельно открыла ключевые шахматные концепты (например, понятие «связки»). По словам Макграта, эти структуры имманентно присущи геометрии шахматного мира и неизбежно откладывают свой отпечаток на репрезентации любой успешной модели.

⚡ Редкие автокодировщики: «разархивация» нейросетей 59:13

Редкие автокодировщики (Sparse Autoencoders, SAE) представляют собой сверхширокие однослойные перцептроны со специальным регуляризатором разреженности. Как объясняет Макграт, SAE снимает с базовой модели «давление сжатия» и дает нейронам пространство для вдоха, разворачивая скрытые слои в миллионы легко интерпретируемых направлений.

На вопрос о том, почему бы сразу не обучать основные модели разреженными, Макграт дает прагматичный ответ: это экономически и технически невозможно. SAE для одного промежуточного слоя содержит от 3 до 12 миллиардов параметров — больше, чем вся базовая модель Llama 3 8B.

Если разворачивать SAE на каждый слой и блок внимания, конфигурация потребует вычислительных мощностей, которых, по словам Макграта, физически нет ни у одной компании в мире.

Кроме того, интеграция автокодировщиков ухудшает исходные метрики качества ИИ. Потери при декомпрессии могут превратить условную передовую модель за 10 миллионов долларов в ее более слабый и дешевый аналог.

Тем не менее, SAE дали исследователям объективные метрики (такие как Fidelity и L0-норма активных признаков). Это позволило запустить привычный для машинного обучения маховик соревнования за улучшение цифр.

Важнейшим вызовом остается внедрение этих инструментов в реальную эксплуатацию. Одно дело — зафиксировать один признак моста Золотые Ворота, как сделала Anthropic в демонстрации Golden Gate Claude, и совсем другое — развернуть модель с миллионами регулируемых «ручек» управления для сторонних разработчиков.

Для решения этих задач Goodfire сотрудничает с проектом Национальной структуры глубокого вывода (NDIF) Дэвида Бау, используя их открытую библиотеку nnsight для эффективного сбора активаций и проведения интервенций.

🔬 Модели для науки и «10 моделей в одном плаще»: споры о будущем ИИ 1:34:57

Одно из самых захватывающих применений интерпретируемости лежит в сфере научных ИИ-моделей, таких как AlphaFold, ESM3 или нейросети для прогнозирования погоды. Когда модель предсказывает физические процессы лучше человеческих теорий, она, как считает Макграт, явно обладает скрытым знанием, которого у человечества пока нет.

Механистическая интерпретируемость способна извлечь это новое знание из моделей и вернуть его в фундаментальную науку. Однако на тему масштабирования ИИ между участниками дискуссии возник спор.

Ведущий Натан Лабенц высказал гипотезу, что сквозной перенос знаний между далекими модальностями (например, между текстом и метеорологией) позволит ИИ преодолеть потолок человеческого экспертного уровня.

Том Макграт отнесся к этому скептически, выдвинув контраргумент: если обучить языковую модель множеству далеких научных задач, под капотом мы, скорее всего, обнаружим «10 моделей в одном плаще» — изолированные архитектурные куски без глубокого синергетического переноса. В качестве примера Макграт привел работу DeepMind Gato, где перенос навыков между задачами обучения с подкреплением оказался минимальным.

Макграт также выразил сомнение в громких заявлениях создателей видеомоделей Sora или Runway Gen 3, называющих их «симуляторами мира». По его мнению, эти модели создают лишь поверхностно убедительную картинку, но лишены глубокого понимания физики. Это заметно по артефактам, когда стая птиц на видео может сливаться в один объект и разделяться вновь.

Дэн Бальзам добавил важный нюанс к этой критике. По мнению Бальзама, видеомодель действительно учит иерархические структуры для генерации кадров, но она никогда не сможет самостоятельно превратить это интуитивное знание в математическое уравнение, если это напрямую не помогает ей эффективнее сжимать данные.

🚀 Миссия Goodfire: новая индустрия ИИ-инжиниринга 1:16:46

По данным исследования McKinsey за 2024 год, 44% бизнес-лидеров уже сталкивались с негативными последствиями непреднамеренного поведения ИИ-моделей. Дэн Бальзам вспоминает свой опыт в ИИ-стартапе Ripple Match, где из-за невозможности гарантировать отсутствие предвзятости (bias) компания не могла внедрять языковые модели в критические рекрутинговые процессы.

Цель Goodfire — создать мир, в котором релиз ИИ-модели, принципы работы которой не понимает сам разработчик, станет невозможным. Важным шагом к автоматизации этого процесса является автоматическая интерпретируемость (Auto-interpretability).

Советник Goodfire Ник Камарада доказал, что можно использовать одну языковую модель для автоматической генерации точных и статистически робастных текстовых объяснений признаков другой модели.

На реализацию этой долгосрочной стратегии стартап Goodfire привлек 7 миллионов долларов в рамках посевного раунда, возглавленного фондом Lightspeed Venture Partners.

Проект зарегистрирован как Public Benefit Corporation (общественно полезная корпорация), что обязывает команду удерживать баланс между коммерческим успехом и миссией снижения глобальных рисков ИИ.

В настоящее время Goodfire формирует команду основателей, разыскивая увлеченных инженеров и ученых через свой сайт goodfire.ai, готовых принять участие в главном научном приключении ближайших десятилетий.