Прото-парадигма и «темная материя» ИИ: как Goodfire планирует взломать «черный ящик» нейросетей

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает состояние и будущее механистической интерпретируемости с сооснователями стартапа Goodfire — Дэниелом Филаном и Томом Либерумом. В центре внимания — переход области из «пре-парадигмального» состояния в «прото-парадигмальное», проблемы расшифровки «темной материи» нейросетей и потенциал использования ИИ-симуляций для совершения прорывов в биологии и геномике.

🛠️ От «черного ящика» к прото-парадигме 5:02

Долгое время механистическая интерпретируемость (MI) считалась областью без четких правил, однако Том Либерум утверждает, что сегодня она переходит в «прото-парадигмальную» стадию . По его словам, в сообществе исследователей (особенно вокруг оси Anthropic и Goodfire) сформировался консенсус относительно базовых принципов работы моделей:

Понятность: Нейронные сети содержат дискретные, понятные человеку структуры.
Линейность: Признаки (features) можно представить как линейные направления в эмбеддинг-пространстве .
Интенсивность: Магнитуда активации признака соответствует интенсивности концепта в конкретный момент.
Суперпозиция: Модели используют суперпозицию, чтобы представлять гораздо больше концептов, чем у них есть физических измерений, допуская минимальные помехи .
Цепи (Circuits): Признаки соединяются между слоями, образуя логические цепочки или «цепи» вычислений .

Дэниел Филан подчеркивает, что MI — это в первую очередь эмпирическая наука, напоминающая естествознание . Исследователь здесь выступает в роли натуралиста, который наблюдает за «поведением» активаций внутри модели и пытается вывести закономерности, не имея заранее готовых гипотез.

🕳️ Проблема «двух пробелов» и «темная материя» 20:02

Несмотря на прогресс, между текущими техниками интерпретации и реальностью модели остаются два критических разрыва. Том Либерум описывает их следующим образом:

Технологический разрыв: Дистанция между работой реальной модели и её аппроксимацией через разреженные автоэнкодеры (SAE). Текущие методы восстанавливают поведение модели лишь грубо .
Философский разрыв: Разница между признаком, который выделил алгоритм, и ярлыком (label), который мы ему присвоили. Насколько мы можем быть уверены, что признак, помеченный как «децепция» (обман), действительно означает именно это в когнитивном пространстве модели? .

Особое внимание участники уделили концепции «темной материи» разреженных автоэнкодеров . Исследование Джоша Энгельса (Josh Engels) и его коллег показало, что при масштабировании SAE кривая восстановления активаций может выходить на плато. По мнению Тома Либерума, это означает наличие структур (возможно, связанных с жесткой меморизацией или сложными эвристиками), которые текущие архитектуры SAE принципиально не способны уловить .

🧬 Научные открытия через симуляцию 1:17:37

Одним из наиболее перспективных направлений работы Goodfire является сотрудничество с Ark Institute в области геномики . Дэниел Филан считает, что интерпретируемость может стать ключевым инструментом для совершения открытий в биологии:

Модели как лаборатории: Вместо дорогостоящих «мокрых» экспериментов в лабораториях (wet work) ученые могут запускать симуляции биологических процессов на чипах.
Сверхчеловеческие паттерны: Геномные модели (например, EVO 2) находят в ДНК закономерности, которые люди не замечали десятилетиями. MI позволяет «вытащить» эти знания из модели и превратить их в человекочитаемые научные гипотезы .
Диагностика: Интерпретируемость критически важна для медицины. Если ИИ ставит диагноз, врач должен понимать, на основе каких признаков это сделано, чтобы избежать ошибок .

Дэниел Филан выдвигает смелую гипотезу: даже если в будущем «дата-центр, полный гениальных ИИ», будет выполнять всю научную работу, механистическая интерпретируемость останется их главным инструментом для понимания собственных открытий .

🎨 Практическое применение: от безопасности до творчества 1:43:51

Goodfire развивает три основных прикладных направления:

Научные открытия: Работа с геномными и протеомными моделями для поиска новых биологических механизмов.
Безопасность и Guardrails: Разработка систем мониторинга во время инференса (inference time monitoring). Вместо того чтобы прописывать тысячи правил в промпте, можно отслеживать «внутренние мысли» модели на предмет опасных намерений или утечки конфиденциальных данных (PII) . Это решение дешевле и надежнее, чем использование «ИИ-судьи» (LLM-as-a-judge).
Креативные инструменты: Недавно запущенный инструмент «Paint with Ember» позволяет редактировать изображения, напрямую манипулируя признаками в латентном пространстве . Например, можно плавно изменять освещение или добавлять элементы, просто двигая «слайдеры» конкретных признаков.

💰 Инвестиции и будущее индустрии 1:50:49

Недавно Goodfire объявила о раунде серии A в размере $50 млн . Примечательно, что в раунде приняла участие компания Anthropic — это их первая в истории инвестиция в другой стартап.

Дэниел Филан отмечает, что для индустрии важно наличие независимой лаборатории, которая фокусируется исключительно на интерпретируемости, не будучи привязанной к задачам масштабирования конкретной большой модели (scaling lab) . По мнению сооснователей, рынок MI со временем станет таким же огромным, как и сам рынок ИИ, поскольку по мере усложнения систем потребность в контроле и понимании их внутренней логики будет только расти.