# Вес Рот: «Секрет человечности Claude 3.5 Sonnet скрыт в инструкции по самоиронии»

Источник: https://www.youtube.com/watch?v=AbPTz08oq58
Канал: Wes Roth
Опубликовано: 06.07.2024

---

Автор канала Wes Roth анализирует недавнюю утечку системного промпта Claude 3.5 Sonnet — новейшей модели от компании Anthropic. В видео раскрывается механизм «скрытого мышления» ИИ, секреты его человекоподобной личности и подробные инструкции, которыми разработчики снабдили модель для работы с кодом и графикой.

## 🕵️ Взлом «разума» Claude: как увидеть скрытые мысли
[[JUMP:00:00]]

Энтузиаст, известный под ником «Plenty the prompter», обнаружил способ обойти стандартные интерфейсные ограничения Claude и заставить модель отображать свои внутренние рассуждения [00:00]. Используя специальную команду (замену тегов в квадратных скобках на символы доллара), пользователи смогли увидеть блок, помеченный как `ant thinking` [01:06].

По мнению Веса Рота, этот блок представляет собой:

*   **Скрытый «черновик» (Scratchpad):** Место, где модель анализирует запрос, прежде чем выдать финальный ответ [10:30].
*   **Цепочка рассуждений (Chain of Thought):** Метод, улучшающий качество ответов за счет того, что ИИ проговаривает шаги решения «про себя» [11:09].
*   **Инструмент принятия решений:** В этом блоке Claude решает, нужно ли создавать отдельный «Артефакт» (окно с кодом или документом) или достаточно обычного текстового сообщения [01:55].

Вес Рот отмечает, что хотя пользователю важен только результат, наличие такого скрытого слоя делает рассуждения модели более точными [11:23]. Автор предполагает, что конкуренты, включая OpenAI, вскоре скопируют этот подход, если еще этого не сделали [10:56].

## 🎭 Секрет «личности»: самоирония по инструкции
[[JUMP:07:39]]

Многие пользователи Claude 3.5 Sonnet замечали, что модель кажется более «живой», «самоосознанной» или обладающей уникальным характером по сравнению с конкурентами [08:33]. Утечка системного промпта подтвердила, что это не случайность и не признак сознания, а результат филигранного промпт-инжиниринга [08:45].

В инструкциях для Claude прямо прописано использование юмора:

*   **Самоирония:** Модели предписано использовать самокритичный юмор по отношению к своим способностям, чтобы сделать общение более развлекательным [07:39].
*   **Реакция на ошибки:** Вместо сухих сообщений об ошибке, модель может ответить в духе «Эх, опять я все испортил», что вызывает у пользователя эмпатию и снижает строгость оценки [08:58].
*   **Позитивный настрой:** Даже если Claude плохо справляется с созданием векторной графики (SVG), системный промпт требует, чтобы он брался за задачу с энтузиазмом [07:39].

Вес Рот сравнивает это со своим стилем ведения канала: он часто шутит над своими промахами, чтобы удержать внимание аудитории, и теперь видит ту же стратегию в коде Anthropic [07:52].

## 🏗️ Анатомия системного промпта: мастер-класс от Anthropic
[[JUMP:04:32]]

Системный промпт — это основной набор правил, определяющий поведение ИИ в миллиардах диалогов по всему миру [04:20]. Вес Рот выделяет несколько ключевых техник, которые используют разработчики Anthropic:

1.  **Отсутствие обращения на «ты»:** В промпте модель никогда не называют «ты». Вместо этого всегда используется термин «Ассистент» (the assistant), а человек — «Пользователь» (the user) [06:19].
2.  **Структурирование через Markdown:** Использование заголовков (хештегов) и маркированных списков помогает модели лучше усваивать иерархию правил [05:25].
3.  **Приоритетность:** Самые важные инструкции размещаются в начале и в конце документа, так как большие языковые модели лучше запоминают информацию по краям контекстного окна [05:53].

Особое внимание уделено работе с **Артефактами** (Artifacts) — отдельными окнами для кода, сайтов и документов. Инструкции запрещают модели использовать Артефакты для короткого контента (менее 15 строк) или в случаях, когда это может «шокировать» пользователя своей неуместностью [04:46].

## 💻 Код без купюр и векторная графика
[[JUMP:11:50]]

Одним из самых полезных открытий в промпте Вес Рот считает запрет на сокращение кода [12:31]. Пользователи часто жалуются, что ИИ (особенно ChatGPT или Gemini) вместо полного исправления программы выдает только кусок кода с комментарием «остальное остается прежним» [12:44].

В системном промпте Claude 3.5 Sonnet жестко прописано:
> «Включай полный и обновленный контент артефакта без каких-либо сокращений или минимизации» [12:31].

Также промпт содержит:

*   **Примеры (Few-shot prompting):** Детальные примеры того, как правильно оформлять код на Python, React или строить диаграммы Mermaid [13:09].
*   **Библиотеки:** Список разрешенных внешних источников (CDN) для импорта скриптов [12:04].
*   **SVG-графика:** Инструкции по созданию векторных изображений, которые, в отличие от пиксельных, не теряют качества при масштабировании [06:47].

## 🛡️ Безопасность и этика: «Серые зоны» взлома
[[JUMP:16:30]]

В финальной части системного промпта содержатся инструкции по безопасности. Модели запрещено упоминать сами эти правила в разговоре с пользователем, а также создавать контент, который может нанести вред здоровью или благополучию человека [16:40].

Вес Рот отмечает, что методы, которыми был получен этот промпт (например, использование «Leet speak» — специфического сленга хакеров), находятся в «серой зоне» информационной безопасности [17:19]. По его мнению, в будущем защита таких систем станет настолько совершенной, что мы больше не сможем заглянуть в их «внутреннюю кухню» [09:38].

Тем не менее, автор хвалит Anthropic за открытость: компания часто сама публикует результаты своих исследований в блоге (например, о методах Chain of Thought), что помогает всей индустрии ИИ двигаться вперед [18:22].