Вес Рот: «Секрет человечности Claude 3.5 Sonnet скрыт в инструкции по самоиронии»

Автор канала Wes Roth анализирует недавнюю утечку системного промпта Claude 3.5 Sonnet — новейшей модели от компании Anthropic. В видео раскрывается механизм «скрытого мышления» ИИ, секреты его человекоподобной личности и подробные инструкции, которыми разработчики снабдили модель для работы с кодом и графикой.

🕵️ Взлом «разума» Claude: как увидеть скрытые мысли 0:00

Энтузиаст, известный под ником «Plenty the prompter», обнаружил способ обойти стандартные интерфейсные ограничения Claude и заставить модель отображать свои внутренние рассуждения . Используя специальную команду (замену тегов в квадратных скобках на символы доллара), пользователи смогли увидеть блок, помеченный как ant thinking .

По мнению Веса Рота, этот блок представляет собой:

Скрытый «черновик» (Scratchpad): Место, где модель анализирует запрос, прежде чем выдать финальный ответ .
Цепочка рассуждений (Chain of Thought): Метод, улучшающий качество ответов за счет того, что ИИ проговаривает шаги решения «про себя» .
Инструмент принятия решений: В этом блоке Claude решает, нужно ли создавать отдельный «Артефакт» (окно с кодом или документом) или достаточно обычного текстового сообщения .

Вес Рот отмечает, что хотя пользователю важен только результат, наличие такого скрытого слоя делает рассуждения модели более точными . Автор предполагает, что конкуренты, включая OpenAI, вскоре скопируют этот подход, если еще этого не сделали .

🎭 Секрет «личности»: самоирония по инструкции 7:39

Многие пользователи Claude 3.5 Sonnet замечали, что модель кажется более «живой», «самоосознанной» или обладающей уникальным характером по сравнению с конкурентами . Утечка системного промпта подтвердила, что это не случайность и не признак сознания, а результат филигранного промпт-инжиниринга .

В инструкциях для Claude прямо прописано использование юмора:

Самоирония: Модели предписано использовать самокритичный юмор по отношению к своим способностям, чтобы сделать общение более развлекательным .
Реакция на ошибки: Вместо сухих сообщений об ошибке, модель может ответить в духе «Эх, опять я все испортил», что вызывает у пользователя эмпатию и снижает строгость оценки .
Позитивный настрой: Даже если Claude плохо справляется с созданием векторной графики (SVG), системный промпт требует, чтобы он брался за задачу с энтузиазмом .

Вес Рот сравнивает это со своим стилем ведения канала: он часто шутит над своими промахами, чтобы удержать внимание аудитории, и теперь видит ту же стратегию в коде Anthropic .

🏗️ Анатомия системного промпта: мастер-класс от Anthropic 4:32

Системный промпт — это основной набор правил, определяющий поведение ИИ в миллиардах диалогов по всему миру . Вес Рот выделяет несколько ключевых техник, которые используют разработчики Anthropic:

Отсутствие обращения на «ты»: В промпте модель никогда не называют «ты». Вместо этого всегда используется термин «Ассистент» (the assistant), а человек — «Пользователь» (the user) .
Структурирование через Markdown: Использование заголовков (хештегов) и маркированных списков помогает модели лучше усваивать иерархию правил .
Приоритетность: Самые важные инструкции размещаются в начале и в конце документа, так как большие языковые модели лучше запоминают информацию по краям контекстного окна .

Особое внимание уделено работе с Артефактами (Artifacts) — отдельными окнами для кода, сайтов и документов. Инструкции запрещают модели использовать Артефакты для короткого контента (менее 15 строк) или в случаях, когда это может «шокировать» пользователя своей неуместностью .

💻 Код без купюр и векторная графика 11:50

Одним из самых полезных открытий в промпте Вес Рот считает запрет на сокращение кода . Пользователи часто жалуются, что ИИ (особенно ChatGPT или Gemini) вместо полного исправления программы выдает только кусок кода с комментарием «остальное остается прежним» .

В системном промпте Claude 3.5 Sonnet жестко прописано:

«Включай полный и обновленный контент артефакта без каких-либо сокращений или минимизации» .

Также промпт содержит:

Примеры (Few-shot prompting): Детальные примеры того, как правильно оформлять код на Python, React или строить диаграммы Mermaid .
Библиотеки: Список разрешенных внешних источников (CDN) для импорта скриптов .
SVG-графика: Инструкции по созданию векторных изображений, которые, в отличие от пиксельных, не теряют качества при масштабировании .

🛡️ Безопасность и этика: «Серые зоны» взлома 16:30

В финальной части системного промпта содержатся инструкции по безопасности. Модели запрещено упоминать сами эти правила в разговоре с пользователем, а также создавать контент, который может нанести вред здоровью или благополучию человека .

Вес Рот отмечает, что методы, которыми был получен этот промпт (например, использование «Leet speak» — специфического сленга хакеров), находятся в «серой зоне» информационной безопасности . По его мнению, в будущем защита таких систем станет настолько совершенной, что мы больше не сможем заглянуть в их «внутреннюю кухню» .

Тем не менее, автор хвалит Anthropic за открытость: компания часто сама публикует результаты своих исследований в блоге (например, о методах Chain of Thought), что помогает всей индустрии ИИ двигаться вперед .