# Прото-парадигма и «темная материя» ИИ: как Goodfire планирует взломать «черный ящик» нейросетей

Источник: https://www.youtube.com/watch?v=Ap8YSyUdafM
Канал: The Cognitive Revolution
Опубликовано: 29.05.2025

---

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает состояние и будущее механистической интерпретируемости с сооснователями стартапа Goodfire — Дэниелом Филаном и Томом Либерумом. В центре внимания — переход области из «пре-парадигмального» состояния в «прото-парадигмальное», проблемы расшифровки «темной материи» нейросетей и потенциал использования ИИ-симуляций для совершения прорывов в биологии и геномике.

## 🛠️ От «черного ящика» к прото-парадигме
[[JUMP:05:02]]

Долгое время механистическая интерпретируемость (MI) считалась областью без четких правил, однако Том Либерум утверждает, что сегодня она переходит в «прото-парадигмальную» стадию [11:16]. По его словам, в сообществе исследователей (особенно вокруг оси Anthropic и Goodfire) сформировался консенсус относительно базовых принципов работы моделей:

*   **Понятность:** Нейронные сети содержат дискретные, понятные человеку структуры.
*   **Линейность:** Признаки (features) можно представить как линейные направления в эмбеддинг-пространстве [12:30].
*   **Интенсивность:** Магнитуда активации признака соответствует интенсивности концепта в конкретный момент.
*   **Суперпозиция:** Модели используют суперпозицию, чтобы представлять гораздо больше концептов, чем у них есть физических измерений, допуская минимальные помехи [13:40].
*   **Цепи (Circuits):** Признаки соединяются между слоями, образуя логические цепочки или «цепи» вычислений [14:43].

Дэниел Филан подчеркивает, что MI — это в первую очередь эмпирическая наука, напоминающая естествознание [06:20]. Исследователь здесь выступает в роли натуралиста, который наблюдает за «поведением» активаций внутри модели и пытается вывести закономерности, не имея заранее готовых гипотез.

## 🕳️ Проблема «двух пробелов» и «темная материя»
[[JUMP:20:02]]

Несмотря на прогресс, между текущими техниками интерпретации и реальностью модели остаются два критических разрыва. Том Либерум описывает их следующим образом:

1.  **Технологический разрыв:** Дистанция между работой реальной модели и её аппроксимацией через разреженные автоэнкодеры (SAE). Текущие методы восстанавливают поведение модели лишь грубо [22:26].
2.  **Философский разрыв:** Разница между признаком, который выделил алгоритм, и ярлыком (label), который мы ему присвоили. Насколько мы можем быть уверены, что признак, помеченный как «децепция» (обман), действительно означает именно это в когнитивном пространстве модели? [25:17].

Особое внимание участники уделили концепции «темной материи» разреженных автоэнкодеров [1:05:11]. Исследование Джоша Энгельса (Josh Engels) и его коллег показало, что при масштабировании SAE кривая восстановления активаций может выходить на плато. По мнению Тома Либерума, это означает наличие структур (возможно, связанных с жесткой меморизацией или сложными эвристиками), которые текущие архитектуры SAE принципиально не способны уловить [1:07:37].

## 🧬 Научные открытия через симуляцию
[[JUMP:1:17:37]]

Одним из наиболее перспективных направлений работы Goodfire является сотрудничество с Ark Institute в области геномики [1:26:29]. Дэниел Филан считает, что интерпретируемость может стать ключевым инструментом для совершения открытий в биологии:

*   **Модели как лаборатории:** Вместо дорогостоящих «мокрых» экспериментов в лабораториях (wet work) ученые могут запускать симуляции биологических процессов на чипах.
*   **Сверхчеловеческие паттерны:** Геномные модели (например, EVO 2) находят в ДНК закономерности, которые люди не замечали десятилетиями. MI позволяет «вытащить» эти знания из модели и превратить их в человекочитаемые научные гипотезы [1:29:36].
*   **Диагностика:** Интерпретируемость критически важна для медицины. Если ИИ ставит диагноз, врач должен понимать, на основе каких признаков это сделано, чтобы избежать ошибок [1:33:14].

Дэниел Филан выдвигает смелую гипотезу: даже если в будущем «дата-центр, полный гениальных ИИ», будет выполнять всю научную работу, механистическая интерпретируемость останется их главным инструментом для понимания собственных открытий [1:31:05].

## 🎨 Практическое применение: от безопасности до творчества
[[JUMP:1:43:51]]

Goodfire развивает три основных прикладных направления:

1.  **Научные открытия:** Работа с геномными и протеомными моделями для поиска новых биологических механизмов.
2.  **Безопасность и Guardrails:** Разработка систем мониторинга во время инференса (inference time monitoring). Вместо того чтобы прописывать тысячи правил в промпте, можно отслеживать «внутренние мысли» модели на предмет опасных намерений или утечки конфиденциальных данных (PII) [1:46:07]. Это решение дешевле и надежнее, чем использование «ИИ-судьи» (LLM-as-a-judge).
3.  **Креативные инструменты:** Недавно запущенный инструмент «Paint with Ember» позволяет редактировать изображения, напрямую манипулируя признаками в латентном пространстве [1:47:12]. Например, можно плавно изменять освещение или добавлять элементы, просто двигая «слайдеры» конкретных признаков.

## 💰 Инвестиции и будущее индустрии
[[JUMP:1:50:49]]

Недавно Goodfire объявила о раунде серии A в размере $50 млн [1:52:08]. Примечательно, что в раунде приняла участие компания Anthropic — это их первая в истории инвестиция в другой стартап.

Дэниел Филан отмечает, что для индустрии важно наличие независимой лаборатории, которая фокусируется исключительно на интерпретируемости, не будучи привязанной к задачам масштабирования конкретной большой модели (scaling lab) [1:52:35]. По мнению сооснователей, рынок MI со временем станет таким же огромным, как и сам рынок ИИ, поскольку по мере усложнения систем потребность в контроле и понимании их внутренней логики будет только расти.

---