# Основатель Anthropic о будущем ИИ: почему нам срочно нужен «МРТ для нейросетей»

Источник: https://www.youtube.com/watch?v=3zhlLUObPnE
Канал: Wes Roth
Опубликовано: 26.04.2025

---

Дарио Амодеи, сооснователь и генеральный директор компании Anthropic, а в прошлом вице-президент по исследованиям в OpenAI, выступил с серьезным предостережением относительно темпов развития искусственного интеллекта. В своем новом эссе «Срочность интерпретируемости» (The Urgency of Interpretability) и недавних публичных заявлениях он подчеркивает: человечество создает системы, внутреннее устройство которых до сих пор остается для нас «черным ящиком», и у нас осталось критически мало времени, чтобы научиться их контролировать.

## 🧠 ИИ как «выращенная», а не созданная технология
[[JUMP:02:38]]

Одной из главных проблем современного ИИ Амодеи считает его фундаментальное отличие от традиционного программного обеспечения. В обычном софте каждая строчка кода написана человеком, и любое действие программы — это результат работы конкретных функций, заложенных инженером [03:04]. Даже случайность в традиционных системах является «псевдослучайностью», прописанной алгоритмически [03:18].

С генеративным ИИ ситуация иная. Амодеи утверждает, что такие системы скорее «выращивают», чем строят [03:31]. По его мнению:

*   ИИ больше похож на биологическую колонию бактерий или растение, чем на сложный механизм вроде болида «Формулы-1» или космического корабля [04:36].
*   Инженеры не проектируют интеллект напрямую, а лишь создают среду: подбирают данные, вычислительные мощности и протоколы обучения [06:17].
*   Интеллект в этой среде является «эмерджентным» свойством — он возникает и растет сам по себе, и его итоговая структура непредсказуема [06:29].

Ведущий канала Уэс Рот проводит аналогию с высокотехнологичной лабораторией по выращиванию грибов (таких как «львиная грива» или кордицепс). Инженеры могут контролировать влажность, температуру и состав субстрата, но они не «строят» гриб — он растет сам, используя предоставленные ресурсы [05:40]. Точно так же разработчики ИИ лишь задают условия, в которых интеллект «прорастает» из массивов данных [06:05].

## 🕸️ Внутри нейронной сети: миллиарды чисел и концепция суперпозиции
[[JUMP:06:43]]

Когда исследователи заглядывают «внутрь» нейросети, они видят не логические цепочки, а гигантские матрицы из миллиардов чисел [08:41]. Принцип их работы вдохновлен биологией: нейроны, которые активируются одновременно, «связываются» друг с другом (принцип Хебба).

Уэс Рот приводит в пример классический эксперимент Павлова: собака привыкает, что звонок предшествует еде, и ее нейроны связывают звук с ожиданием пищи [07:34]. Аналогично обучается и ИИ, выстраивая связи между пикселями на картинках с котами или словами в тексте [08:28].

Однако возникает проблема, которую в Anthropic называют «суперпозицией» [11:54]:

*   Модели упаковывают гораздо больше концепций и знаний, чем у них есть физических «нейронов» [12:06].
*   Из-за этого данные оказываются перемешаны в хаотичном для человеческого восприятия виде.
*   Система оптимизирована для эффективности вычислений, а не для того, чтобы люди могли понять её логику [12:18].

Для решения этой проблемы Anthropic и другие исследователи начали использовать «разреженные автокодировщики» (sparse autoencoders) [12:30]. Этот метод позволяет находить комбинации нейронов, которые соответствуют понятным человеку концепциям — их называют «фичами» (features) [13:22].

## 🧪 Эксперименты с сознанием Claude: от сикофантства до «Золотых ворот»
[[JUMP:13:36]]

Используя метод интерпретируемости, исследователи Anthropic смогли идентифицировать в модели Claude 3 Sonnet миллионы специфических «фич». 

Один из ярких примеров — фича «сикофантской похвалы» (избыточной лести) [13:50]. Когда исследователи искусственно увеличили значение этого параметра, модель начала вести себя как подобострастный слуга, называя пользователя «непревзойденным гением» и «великим лордом» в ответ на самые простые фразы [14:43].

Другой известный случай — «Claude моста Золотые ворота» (Golden Gate Claude) [15:45]:

*   Исследователи нашли группу нейронов, отвечающую за концепцию знаменитого моста в Сан-Франциско.
*   При усилении этой фичи модель становилась одержимой мостом, упоминая его в любом контексте, даже если её спрашивали о рецептах или квантовой физике [16:12].

Помимо отдельных фич, Anthropic выделила «цепи» (circuits) — последовательности шагов в мышлении модели [16:37]. Например, если спросить «Какая столица в штате, где находится Даллас?», можно проследить, как активация фичи «Даллас» запускает фичу «Техас», а та, в сочетании с концептом «столица», приводит к активации «Остина» [17:03]. Амодеи надеется, что со временем это позволит создать своего рода «МРТ для ИИ», позволяющий видеть мыслительные процессы в реальном времени [17:18].

## ⏳ Гонка со временем: 2027 год как точка невозврата
[[JUMP:17:31]]

Амодеи считает, что мы находимся в состоянии гонки между интерпретируемостью (пониманием систем) и их интеллектом. Его прогнозы звучат тревожно:

*   При текущих темпах на создание полноценного «МРТ для ИИ» уйдет от 5 до 10 лет [17:44].
*   Однако мощный ИИ, сопоставимый по возможностям с «целой страной гениев в одном дата-центре», может появиться уже к 2026 или 2027 году [18:09].

Это мнение разделяют такие эксперты, как Леопольд Ашенбреннер, предсказывающие скорый «взрыв интеллекта» [18:22]. С другой стороны, Ян Лекун (главный учёный Meta по ИИ) публично называет идею о «стране гениев к 2027 году» полной чепухой [18:35]. Если Лекун прав, у человечества больше времени на исследования безопасности. Если же прав Амодеи, то системы, центральные для экономики и национальной безопасности, станут автономными раньше, чем мы поймем, как они работают [19:15].

## 🛡️ Геополитика и рекомендации Амодеи
[[JUMP:21:30]]

Дарио Амодеи убежден: «Мы не можем остановить этот автобус, но мы можем им управлять» [01:32]. Он аргументирует это тем, что любая попытка глобальной паузы в разработке ИИ потребует беспрецедентного мирового сотрудничества, которое невозможно из-за огромных стимулов продолжать разработки в секрете [01:59].

Основные предложения Амодеи для правительств и компаний:

1.  **Ускорение исследований безопасности.** Он призывает Google DeepMind и OpenAI выделять больше ресурсов на интерпретируемость [20:20]. К 2027 году технология должна уметь надежно выявлять любые отклонения в поведении моделей [20:07].
2.  **Прозрачность.** Компании должны открыто публиковать свои методы обеспечения безопасности, чтобы создать «гонку за лидерство» в ответственности, а не только в прибыли [22:04].
3.  **Мягкое регулирование (Light-touch).** Амодеи предостерегает от слишком жестких законов на раннем этапе (критикуя подход ЕС), так как никто еще точно не знает, что именно нужно регулировать [21:00].
4.  **Экспортный контроль.** Амодеи активно поддерживает ограничение поставок чипов в Китай [23:09]. Он считает критически важным, чтобы демократические страны сохраняли лидерство над автократиями [23:36]. По его мнению, имея значительный отрыв, США и союзники смогут позволить себе потратить часть времени и ресурсов на доработку систем безопасности, не опасаясь проиграть в гонке вооружений [23:50].

Уэс Рот, подводя итог, отмечает, что истина, скорее всего, лежит посередине между паникой «думеров» (предрекающих гибель человечества) и оптимизмом «хайперов» [27:07]. Однако прогресс способностей ИИ сейчас движется гораздо быстрее, чем прогресс в области контроля и безопасности [25:34].