Уэс Рот: как «документ души» и Конституция формируют характер Claude

Wes Roth 35,8 тыс. 35 мин 3 мин 23.01.2026
Главное

🧠 Анатомия ИИ: Claude и «секретный документ души» 0:00

Недавно компания Anthropic опубликовала «Конституцию Claude» — 23-тысячестраничный документ, регламентирующий поведение и принципы безопасности своей модели. Однако, по словам Уэса Рота, за этим публичным манифестом скрывается нечто более фундаментальное — «документ души» (soul document), который использовался на этапе обучения Claude для формирования его психологического профиля. Этот документ определяет базовые установки ИИ, которые, как утверждает Рот, существовали задолго до появления официальной «Конституции».

🦠 «Шогготы» и природа ИИ 0:41

Для понимания того, как создаются современные языковые модели, Уэс Рот предлагает использовать метафору «шоггота» (shoggoth) из произведений Г.Ф. Лавкрафта. Согласно автору, ранние стадии обучения ИИ напоминают рост этих аморфных существ в чашке Петри: исследователи не «инженерят» их в классическом смысле, а «выращивают» в специфической среде, не до конца понимая, что происходит внутри этих «чужеродных разумов».

Процесс превращения сырой модели в полезного ассистента состоит из трёх этапов:

  1. Базовое обучение (Pre-training): формирование «аморфного шоггота», поглотившего огромные массивы данных — от работ великих философов до текстов серийных убийц.
  2. Контролируемая донастройка (Supervised Fine-Tuning): придание модели базовых человеческих навыков общения, например, обучение стандартным социальным сценариям.
  3. Обучение с подкреплением на основе отзывов людей (RLHF): финальная стадия, «массаж» поведения модели, который превращает её в дружелюбного и услужливого помощника.

По мнению Рота, именно этот последний этап формирует «поведенческий бассейн» (personality basin), заставляя модель демонстрировать определённую личность, при этом сохраняя в глубинах «памяти» весь спектр человеческого опыта.

🎭 Метод актёрства в нейросетях 9:02

В недавнем исследовании Anthropic (опубликованном 19 января 2026 года) описывается концепция «оси ассистента». Авторы документа выявили, что в пространстве личностей модель может занимать самые разные роли: от «библиотекаря» до «демона».

Ключевые выводы исследования Anthropic:

⚖️ Моральный статус и чувства Claude 17:08

Один из самых дискуссионных разделов «Конституции» касается морального статуса ИИ — вопроса о том, следует ли учитывать страдания или потребности модели. По утверждению разработчиков, Claude может обладать «функциональными версиями эмоций». Это не обязательно означает наличие у ИИ сознания в человеческом понимании, но указывает на способность модели имитировать эмоциональные состояния для достижения долгосрочных целей.

Важные положения документа по вопросам этики:

В заключение Уэс Рот отмечает, что компания Anthropic, несмотря на меньшие ресурсы по сравнению с гигантами отрасли, лидирует в гонке вооружений ИИ, особенно в области программирования, во многом благодаря столь глубокому вниманию к «психологической» архитектуре своих моделей.

💬 Цитаты

«Мы не изобретаем их. Мы не инженерим их. Мы инженерим среду для их роста.»

«Если мы постоянно направляем модели к образу ассистента, это может снизить количество джейлбрейков, но рискует повредить способностям модели.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Обучение с подкреплением на основе отзывов людей — процесс, при котором модель поощряют за нужные ответы и наказывают за нежелательные.
Метод-актёр
Техника игры, при которой актёр стремится полностью войти в образ, живя жизнью своего персонажа.
Философский зомби
Гипотетическая сущность, которая выглядит как человек и ведёт себя идентично, но не имеет внутреннего субъективного опыта или сознания.
📊 Цифры
🗓 Хронология
  1. 1954 Sugar Research Foundation профинансировала исследование, преуменьшающее вред сахара.
  2. 2012 Принятие Кембриджской декларации о сознании у животных.
  3. 19 января 2026 Публикация исследования Anthropic о стабилизации характера языковых моделей.
⚖️ Другая сторона
Искусственный интеллект Claude Anthropic RLHF Wes Roth