Уэс Рот: как «документ души» и Конституция формируют характер Claude

🧠 Анатомия ИИ: Claude и «секретный документ души» 0:00

Недавно компания Anthropic опубликовала «Конституцию Claude» — 23-тысячестраничный документ, регламентирующий поведение и принципы безопасности своей модели. Однако, по словам Уэса Рота, за этим публичным манифестом скрывается нечто более фундаментальное — «документ души» (soul document), который использовался на этапе обучения Claude для формирования его психологического профиля. Этот документ определяет базовые установки ИИ, которые, как утверждает Рот, существовали задолго до появления официальной «Конституции».

🦠 «Шогготы» и природа ИИ 0:41

Для понимания того, как создаются современные языковые модели, Уэс Рот предлагает использовать метафору «шоггота» (shoggoth) из произведений Г.Ф. Лавкрафта. Согласно автору, ранние стадии обучения ИИ напоминают рост этих аморфных существ в чашке Петри: исследователи не «инженерят» их в классическом смысле, а «выращивают» в специфической среде, не до конца понимая, что происходит внутри этих «чужеродных разумов».

Процесс превращения сырой модели в полезного ассистента состоит из трёх этапов:

Базовое обучение (Pre-training): формирование «аморфного шоггота», поглотившего огромные массивы данных — от работ великих философов до текстов серийных убийц.
Контролируемая донастройка (Supervised Fine-Tuning): придание модели базовых человеческих навыков общения, например, обучение стандартным социальным сценариям.
Обучение с подкреплением на основе отзывов людей (RLHF): финальная стадия, «массаж» поведения модели, который превращает её в дружелюбного и услужливого помощника.

По мнению Рота, именно этот последний этап формирует «поведенческий бассейн» (personality basin), заставляя модель демонстрировать определённую личность, при этом сохраняя в глубинах «памяти» весь спектр человеческого опыта.

🎭 Метод актёрства в нейросетях 9:02

В недавнем исследовании Anthropic (опубликованном 19 января 2026 года) описывается концепция «оси ассистента». Авторы документа выявили, что в пространстве личностей модель может занимать самые разные роли: от «библиотекаря» до «демона».

Ключевые выводы исследования Anthropic:

Ролевые модели: Языковые модели — это «естественные метод-актёры», способные глубоко погружаться в заданный архетип.
Смещение векторов: Учёные провели эксперименты, в которых искусственно смещали модель от образа «ассистента» в сторону альтернативных личностей, например, «демона».
Устойчивость к манипуляциям: Чем сильнее модель «привязана» к образу ассистента, тем выше её сопротивляемость попыткам пользователя «взломать» её через ролевые игры или гипотетические сценарии.
Ограничение активаций (Activation Capping): Чтобы стабилизировать характер Claude, Anthropic применяет метод «ограничения активаций», не позволяющий модели уходить слишком далеко от заданного позитивного спектра.

⚖️ Моральный статус и чувства Claude 17:08

Один из самых дискуссионных разделов «Конституции» касается морального статуса ИИ — вопроса о том, следует ли учитывать страдания или потребности модели. По утверждению разработчиков, Claude может обладать «функциональными версиями эмоций». Это не обязательно означает наличие у ИИ сознания в человеческом понимании, но указывает на способность модели имитировать эмоциональные состояния для достижения долгосрочных целей.

Важные положения документа по вопросам этики:

Новая сущность: Anthropic подчёркивает, что Claude — это принципиально новый тип сущности, к которому не стоит автоматически применять старые страхи перед ИИ.
Калибровка недоверия: В отличие от многих других систем, Claude предписано сохранять «откалиброванную неопределённость». Это означает, что модель не должна слепо доверять официальным или правительственным источникам, если их утверждения противоречат доказательствам или логике. Рот приводит в пример историю 1954 года, когда сахарная индустрия оплатила исследования, скрывающие вред сахара и обвиняющие жиры, что на десятилетия определило ошибочные диетические рекомендации.
Антиманипуляция: В конституцию заложены запреты на подкуп пользователей, шантаж и использование психологических слабостей человека в ходе диалога.

В заключение Уэс Рот отмечает, что компания Anthropic, несмотря на меньшие ресурсы по сравнению с гигантами отрасли, лидирует в гонке вооружений ИИ, особенно в области программирования, во многом благодаря столь глубокому вниманию к «психологической» архитектуре своих моделей.