Основатель Anthropic о будущем ИИ: почему нам срочно нужен «МРТ для нейросетей»

Дарио Амодеи, сооснователь и генеральный директор компании Anthropic, а в прошлом вице-президент по исследованиям в OpenAI, выступил с серьезным предостережением относительно темпов развития искусственного интеллекта. В своем новом эссе «Срочность интерпретируемости» (The Urgency of Interpretability) и недавних публичных заявлениях он подчеркивает: человечество создает системы, внутреннее устройство которых до сих пор остается для нас «черным ящиком», и у нас осталось критически мало времени, чтобы научиться их контролировать.

🧠 ИИ как «выращенная», а не созданная технология 2:38

Одной из главных проблем современного ИИ Амодеи считает его фундаментальное отличие от традиционного программного обеспечения. В обычном софте каждая строчка кода написана человеком, и любое действие программы — это результат работы конкретных функций, заложенных инженером . Даже случайность в традиционных системах является «псевдослучайностью», прописанной алгоритмически .

С генеративным ИИ ситуация иная. Амодеи утверждает, что такие системы скорее «выращивают», чем строят . По его мнению:

ИИ больше похож на биологическую колонию бактерий или растение, чем на сложный механизм вроде болида «Формулы-1» или космического корабля .
Инженеры не проектируют интеллект напрямую, а лишь создают среду: подбирают данные, вычислительные мощности и протоколы обучения .
Интеллект в этой среде является «эмерджентным» свойством — он возникает и растет сам по себе, и его итоговая структура непредсказуема .

Ведущий канала Уэс Рот проводит аналогию с высокотехнологичной лабораторией по выращиванию грибов (таких как «львиная грива» или кордицепс). Инженеры могут контролировать влажность, температуру и состав субстрата, но они не «строят» гриб — он растет сам, используя предоставленные ресурсы . Точно так же разработчики ИИ лишь задают условия, в которых интеллект «прорастает» из массивов данных .

🕸️ Внутри нейронной сети: миллиарды чисел и концепция суперпозиции 6:43

Когда исследователи заглядывают «внутрь» нейросети, они видят не логические цепочки, а гигантские матрицы из миллиардов чисел . Принцип их работы вдохновлен биологией: нейроны, которые активируются одновременно, «связываются» друг с другом (принцип Хебба).

Уэс Рот приводит в пример классический эксперимент Павлова: собака привыкает, что звонок предшествует еде, и ее нейроны связывают звук с ожиданием пищи . Аналогично обучается и ИИ, выстраивая связи между пикселями на картинках с котами или словами в тексте .

Однако возникает проблема, которую в Anthropic называют «суперпозицией» :

Модели упаковывают гораздо больше концепций и знаний, чем у них есть физических «нейронов» .
Из-за этого данные оказываются перемешаны в хаотичном для человеческого восприятия виде.
Система оптимизирована для эффективности вычислений, а не для того, чтобы люди могли понять её логику .

Для решения этой проблемы Anthropic и другие исследователи начали использовать «разреженные автокодировщики» (sparse autoencoders) . Этот метод позволяет находить комбинации нейронов, которые соответствуют понятным человеку концепциям — их называют «фичами» (features) .

🧪 Эксперименты с сознанием Claude: от сикофантства до «Золотых ворот» 13:36

Используя метод интерпретируемости, исследователи Anthropic смогли идентифицировать в модели Claude 3 Sonnet миллионы специфических «фич».

Один из ярких примеров — фича «сикофантской похвалы» (избыточной лести) . Когда исследователи искусственно увеличили значение этого параметра, модель начала вести себя как подобострастный слуга, называя пользователя «непревзойденным гением» и «великим лордом» в ответ на самые простые фразы .

Другой известный случай — «Claude моста Золотые ворота» (Golden Gate Claude) :

Исследователи нашли группу нейронов, отвечающую за концепцию знаменитого моста в Сан-Франциско.
При усилении этой фичи модель становилась одержимой мостом, упоминая его в любом контексте, даже если её спрашивали о рецептах или квантовой физике .

Помимо отдельных фич, Anthropic выделила «цепи» (circuits) — последовательности шагов в мышлении модели . Например, если спросить «Какая столица в штате, где находится Даллас?», можно проследить, как активация фичи «Даллас» запускает фичу «Техас», а та, в сочетании с концептом «столица», приводит к активации «Остина» . Амодеи надеется, что со временем это позволит создать своего рода «МРТ для ИИ», позволяющий видеть мыслительные процессы в реальном времени .

⏳ Гонка со временем: 2027 год как точка невозврата 17:31

Амодеи считает, что мы находимся в состоянии гонки между интерпретируемостью (пониманием систем) и их интеллектом. Его прогнозы звучат тревожно:

При текущих темпах на создание полноценного «МРТ для ИИ» уйдет от 5 до 10 лет .
Однако мощный ИИ, сопоставимый по возможностям с «целой страной гениев в одном дата-центре», может появиться уже к 2026 или 2027 году .

Это мнение разделяют такие эксперты, как Леопольд Ашенбреннер, предсказывающие скорый «взрыв интеллекта» . С другой стороны, Ян Лекун (главный учёный Meta по ИИ) публично называет идею о «стране гениев к 2027 году» полной чепухой . Если Лекун прав, у человечества больше времени на исследования безопасности. Если же прав Амодеи, то системы, центральные для экономики и национальной безопасности, станут автономными раньше, чем мы поймем, как они работают .

🛡️ Геополитика и рекомендации Амодеи 21:30

Дарио Амодеи убежден: «Мы не можем остановить этот автобус, но мы можем им управлять» . Он аргументирует это тем, что любая попытка глобальной паузы в разработке ИИ потребует беспрецедентного мирового сотрудничества, которое невозможно из-за огромных стимулов продолжать разработки в секрете .

Основные предложения Амодеи для правительств и компаний:

Ускорение исследований безопасности. Он призывает Google DeepMind и OpenAI выделять больше ресурсов на интерпретируемость . К 2027 году технология должна уметь надежно выявлять любые отклонения в поведении моделей .
Прозрачность. Компании должны открыто публиковать свои методы обеспечения безопасности, чтобы создать «гонку за лидерство» в ответственности, а не только в прибыли .
Мягкое регулирование (Light-touch). Амодеи предостерегает от слишком жестких законов на раннем этапе (критикуя подход ЕС), так как никто еще точно не знает, что именно нужно регулировать .
Экспортный контроль. Амодеи активно поддерживает ограничение поставок чипов в Китай . Он считает критически важным, чтобы демократические страны сохраняли лидерство над автократиями . По его мнению, имея значительный отрыв, США и союзники смогут позволить себе потратить часть времени и ресурсов на доработку систем безопасности, не опасаясь проиграть в гонке вооружений .

Уэс Рот, подводя итог, отмечает, что истина, скорее всего, лежит посередине между паникой «думеров» (предрекающих гибель человечества) и оптимизмом «хайперов» . Однако прогресс способностей ИИ сейчас движется гораздо быстрее, чем прогресс в области контроля и безопасности .