В новом выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает состояние и будущее механистической интерпретируемости с сооснователями стартапа Goodfire — Дэниелом Филаном и Томом Либерумом. В центре внимания — переход области из «пре-парадигмального» состояния в «прото-парадигмальное», проблемы расшифровки «темной материи» нейросетей и потенциал использования ИИ-симуляций для совершения прорывов в биологии и геномике.
🛠️ От «черного ящика» к прото-парадигме 5:02
Долгое время механистическая интерпретируемость (MI) считалась областью без четких правил, однако Том Либерум утверждает, что сегодня она переходит в «прото-парадигмальную» стадию . По его словам, в сообществе исследователей (особенно вокруг оси Anthropic и Goodfire) сформировался консенсус относительно базовых принципов работы моделей:
- Понятность: Нейронные сети содержат дискретные, понятные человеку структуры.
- Линейность: Признаки (features) можно представить как линейные направления в эмбеддинг-пространстве .
- Интенсивность: Магнитуда активации признака соответствует интенсивности концепта в конкретный момент.
- Суперпозиция: Модели используют суперпозицию, чтобы представлять гораздо больше концептов, чем у них есть физических измерений, допуская минимальные помехи .
- Цепи (Circuits): Признаки соединяются между слоями, образуя логические цепочки или «цепи» вычислений .
Дэниел Филан подчеркивает, что MI — это в первую очередь эмпирическая наука, напоминающая естествознание . Исследователь здесь выступает в роли натуралиста, который наблюдает за «поведением» активаций внутри модели и пытается вывести закономерности, не имея заранее готовых гипотез.
🕳️ Проблема «двух пробелов» и «темная материя» 20:02
Несмотря на прогресс, между текущими техниками интерпретации и реальностью модели остаются два критических разрыва. Том Либерум описывает их следующим образом:
- Технологический разрыв: Дистанция между работой реальной модели и её аппроксимацией через разреженные автоэнкодеры (SAE). Текущие методы восстанавливают поведение модели лишь грубо .
- Философский разрыв: Разница между признаком, который выделил алгоритм, и ярлыком (label), который мы ему присвоили. Насколько мы можем быть уверены, что признак, помеченный как «децепция» (обман), действительно означает именно это в когнитивном пространстве модели? .
Особое внимание участники уделили концепции «темной материи» разреженных автоэнкодеров . Исследование Джоша Энгельса (Josh Engels) и его коллег показало, что при масштабировании SAE кривая восстановления активаций может выходить на плато. По мнению Тома Либерума, это означает наличие структур (возможно, связанных с жесткой меморизацией или сложными эвристиками), которые текущие архитектуры SAE принципиально не способны уловить .
🧬 Научные открытия через симуляцию 1:17:37
Одним из наиболее перспективных направлений работы Goodfire является сотрудничество с Ark Institute в области геномики . Дэниел Филан считает, что интерпретируемость может стать ключевым инструментом для совершения открытий в биологии:
- Модели как лаборатории: Вместо дорогостоящих «мокрых» экспериментов в лабораториях (wet work) ученые могут запускать симуляции биологических процессов на чипах.
- Сверхчеловеческие паттерны: Геномные модели (например, EVO 2) находят в ДНК закономерности, которые люди не замечали десятилетиями. MI позволяет «вытащить» эти знания из модели и превратить их в человекочитаемые научные гипотезы .
- Диагностика: Интерпретируемость критически важна для медицины. Если ИИ ставит диагноз, врач должен понимать, на основе каких признаков это сделано, чтобы избежать ошибок .
Дэниел Филан выдвигает смелую гипотезу: даже если в будущем «дата-центр, полный гениальных ИИ», будет выполнять всю научную работу, механистическая интерпретируемость останется их главным инструментом для понимания собственных открытий .
🎨 Практическое применение: от безопасности до творчества 1:43:51
Goodfire развивает три основных прикладных направления:
- Научные открытия: Работа с геномными и протеомными моделями для поиска новых биологических механизмов.
- Безопасность и Guardrails: Разработка систем мониторинга во время инференса (inference time monitoring). Вместо того чтобы прописывать тысячи правил в промпте, можно отслеживать «внутренние мысли» модели на предмет опасных намерений или утечки конфиденциальных данных (PII) . Это решение дешевле и надежнее, чем использование «ИИ-судьи» (LLM-as-a-judge).
- Креативные инструменты: Недавно запущенный инструмент «Paint with Ember» позволяет редактировать изображения, напрямую манипулируя признаками в латентном пространстве . Например, можно плавно изменять освещение или добавлять элементы, просто двигая «слайдеры» конкретных признаков.
💰 Инвестиции и будущее индустрии 1:50:49
Недавно Goodfire объявила о раунде серии A в размере $50 млн . Примечательно, что в раунде приняла участие компания Anthropic — это их первая в истории инвестиция в другой стартап.
Дэниел Филан отмечает, что для индустрии важно наличие независимой лаборатории, которая фокусируется исключительно на интерпретируемости, не будучи привязанной к задачам масштабирования конкретной большой модели (scaling lab) . По мнению сооснователей, рынок MI со временем станет таким же огромным, как и сам рынок ИИ, поскольку по мере усложнения систем потребность в контроле и понимании их внутренней логики будет только расти.