Прото-парадигма и «темная материя» ИИ: как Goodfire планирует взломать «черный ящик» нейросетей

The Cognitive Revolution 189 тыс. 1 ч 54 мин 3 мин 29.05.2025
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает состояние и будущее механистической интерпретируемости с сооснователями стартапа Goodfire — Дэниелом Филаном и Томом Либерумом. В центре внимания — переход области из «пре-парадигмального» состояния в «прото-парадигмальное», проблемы расшифровки «темной материи» нейросетей и потенциал использования ИИ-симуляций для совершения прорывов в биологии и геномике.

🛠️ От «черного ящика» к прото-парадигме 5:02

Долгое время механистическая интерпретируемость (MI) считалась областью без четких правил, однако Том Либерум утверждает, что сегодня она переходит в «прото-парадигмальную» стадию . По его словам, в сообществе исследователей (особенно вокруг оси Anthropic и Goodfire) сформировался консенсус относительно базовых принципов работы моделей:

Дэниел Филан подчеркивает, что MI — это в первую очередь эмпирическая наука, напоминающая естествознание . Исследователь здесь выступает в роли натуралиста, который наблюдает за «поведением» активаций внутри модели и пытается вывести закономерности, не имея заранее готовых гипотез.

🕳️ Проблема «двух пробелов» и «темная материя» 20:02

Несмотря на прогресс, между текущими техниками интерпретации и реальностью модели остаются два критических разрыва. Том Либерум описывает их следующим образом:

  1. Технологический разрыв: Дистанция между работой реальной модели и её аппроксимацией через разреженные автоэнкодеры (SAE). Текущие методы восстанавливают поведение модели лишь грубо .
  2. Философский разрыв: Разница между признаком, который выделил алгоритм, и ярлыком (label), который мы ему присвоили. Насколько мы можем быть уверены, что признак, помеченный как «децепция» (обман), действительно означает именно это в когнитивном пространстве модели? .

Особое внимание участники уделили концепции «темной материи» разреженных автоэнкодеров . Исследование Джоша Энгельса (Josh Engels) и его коллег показало, что при масштабировании SAE кривая восстановления активаций может выходить на плато. По мнению Тома Либерума, это означает наличие структур (возможно, связанных с жесткой меморизацией или сложными эвристиками), которые текущие архитектуры SAE принципиально не способны уловить .

🧬 Научные открытия через симуляцию 1:17:37

Одним из наиболее перспективных направлений работы Goodfire является сотрудничество с Ark Institute в области геномики . Дэниел Филан считает, что интерпретируемость может стать ключевым инструментом для совершения открытий в биологии:

Дэниел Филан выдвигает смелую гипотезу: даже если в будущем «дата-центр, полный гениальных ИИ», будет выполнять всю научную работу, механистическая интерпретируемость останется их главным инструментом для понимания собственных открытий .

🎨 Практическое применение: от безопасности до творчества 1:43:51

Goodfire развивает три основных прикладных направления:

  1. Научные открытия: Работа с геномными и протеомными моделями для поиска новых биологических механизмов.
  2. Безопасность и Guardrails: Разработка систем мониторинга во время инференса (inference time monitoring). Вместо того чтобы прописывать тысячи правил в промпте, можно отслеживать «внутренние мысли» модели на предмет опасных намерений или утечки конфиденциальных данных (PII) . Это решение дешевле и надежнее, чем использование «ИИ-судьи» (LLM-as-a-judge).
  3. Креативные инструменты: Недавно запущенный инструмент «Paint with Ember» позволяет редактировать изображения, напрямую манипулируя признаками в латентном пространстве . Например, можно плавно изменять освещение или добавлять элементы, просто двигая «слайдеры» конкретных признаков.

💰 Инвестиции и будущее индустрии 1:50:49

Недавно Goodfire объявила о раунде серии A в размере $50 млн . Примечательно, что в раунде приняла участие компания Anthropic — это их первая в истории инвестиция в другой стартап.

Дэниел Филан отмечает, что для индустрии важно наличие независимой лаборатории, которая фокусируется исключительно на интерпретируемости, не будучи привязанной к задачам масштабирования конкретной большой модели (scaling lab) . По мнению сооснователей, рынок MI со временем станет таким же огромным, как и сам рынок ИИ, поскольку по мере усложнения систем потребность в контроле и понимании их внутренней логики будет только расти.


💬 Цитаты

«Даже если в сценарии дата-центр, полный гениев, будет выполнять большую часть научной работы, механистическая интерпретируемость может стать их предпочтительным инструментом для понимания как своих открытий, так и самих себя.»

Дэниел Филан 4:08

«Мы до сих пор не знаем, что такое «темная материя»... Если бы её было легко понять, мы бы уже встроили это знание в новые архитектуры.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Mechanistic Interpretability
Область ИИ, пытающаяся понять внутренние механизмы нейросетей, аналогично реверс-инжинирингу кода.
Sparse Autoencoder (SAE)
Архитектура, используемая для разложения сложных активаций нейросети на понятные человеку признаки.
Superposition
Способность модели хранить больше концептов, чем у неё есть измерений в векторе, за счет их неполной ортогональности.
Dark Matter (в контексте ИИ)
Часть вычислений модели, которую не удается реконструировать с помощью текущих методов интерпретации.
Inference time monitoring
Наблюдение за работой модели непосредственно в момент генерации ответа для предотвращения вредных выводов.
📊 Цифры
🗓 Хронология
  1. Май 2024 Goodfire объявляет о привлечении $50 млн инвестиций.
  2. Сентябрь 2023 Предыдущая встреча участников подкаста для обсуждения основ интерпретируемости.
⚖️ Другая сторона
Искусственный интеллект Goodfire Mechanistic Interpretability Sparse Autoencoders Daniel Filan Tom Lieberum