Автор канала Wes Roth анализирует недавнюю утечку системного промпта Claude 3.5 Sonnet — новейшей модели от компании Anthropic. В видео раскрывается механизм «скрытого мышления» ИИ, секреты его человекоподобной личности и подробные инструкции, которыми разработчики снабдили модель для работы с кодом и графикой.
🕵️ Взлом «разума» Claude: как увидеть скрытые мысли 0:00
Энтузиаст, известный под ником «Plenty the prompter», обнаружил способ обойти стандартные интерфейсные ограничения Claude и заставить модель отображать свои внутренние рассуждения . Используя специальную команду (замену тегов в квадратных скобках на символы доллара), пользователи смогли увидеть блок, помеченный как ant thinking .
По мнению Веса Рота, этот блок представляет собой:
- Скрытый «черновик» (Scratchpad): Место, где модель анализирует запрос, прежде чем выдать финальный ответ .
- Цепочка рассуждений (Chain of Thought): Метод, улучшающий качество ответов за счет того, что ИИ проговаривает шаги решения «про себя» .
- Инструмент принятия решений: В этом блоке Claude решает, нужно ли создавать отдельный «Артефакт» (окно с кодом или документом) или достаточно обычного текстового сообщения .
Вес Рот отмечает, что хотя пользователю важен только результат, наличие такого скрытого слоя делает рассуждения модели более точными . Автор предполагает, что конкуренты, включая OpenAI, вскоре скопируют этот подход, если еще этого не сделали .
🎭 Секрет «личности»: самоирония по инструкции 7:39
Многие пользователи Claude 3.5 Sonnet замечали, что модель кажется более «живой», «самоосознанной» или обладающей уникальным характером по сравнению с конкурентами . Утечка системного промпта подтвердила, что это не случайность и не признак сознания, а результат филигранного промпт-инжиниринга .
В инструкциях для Claude прямо прописано использование юмора:
- Самоирония: Модели предписано использовать самокритичный юмор по отношению к своим способностям, чтобы сделать общение более развлекательным .
- Реакция на ошибки: Вместо сухих сообщений об ошибке, модель может ответить в духе «Эх, опять я все испортил», что вызывает у пользователя эмпатию и снижает строгость оценки .
- Позитивный настрой: Даже если Claude плохо справляется с созданием векторной графики (SVG), системный промпт требует, чтобы он брался за задачу с энтузиазмом .
Вес Рот сравнивает это со своим стилем ведения канала: он часто шутит над своими промахами, чтобы удержать внимание аудитории, и теперь видит ту же стратегию в коде Anthropic .
🏗️ Анатомия системного промпта: мастер-класс от Anthropic 4:32
Системный промпт — это основной набор правил, определяющий поведение ИИ в миллиардах диалогов по всему миру . Вес Рот выделяет несколько ключевых техник, которые используют разработчики Anthropic:
- Отсутствие обращения на «ты»: В промпте модель никогда не называют «ты». Вместо этого всегда используется термин «Ассистент» (the assistant), а человек — «Пользователь» (the user) .
- Структурирование через Markdown: Использование заголовков (хештегов) и маркированных списков помогает модели лучше усваивать иерархию правил .
- Приоритетность: Самые важные инструкции размещаются в начале и в конце документа, так как большие языковые модели лучше запоминают информацию по краям контекстного окна .
Особое внимание уделено работе с Артефактами (Artifacts) — отдельными окнами для кода, сайтов и документов. Инструкции запрещают модели использовать Артефакты для короткого контента (менее 15 строк) или в случаях, когда это может «шокировать» пользователя своей неуместностью .
💻 Код без купюр и векторная графика 11:50
Одним из самых полезных открытий в промпте Вес Рот считает запрет на сокращение кода . Пользователи часто жалуются, что ИИ (особенно ChatGPT или Gemini) вместо полного исправления программы выдает только кусок кода с комментарием «остальное остается прежним» .
В системном промпте Claude 3.5 Sonnet жестко прописано:
«Включай полный и обновленный контент артефакта без каких-либо сокращений или минимизации» .
Также промпт содержит:
- Примеры (Few-shot prompting): Детальные примеры того, как правильно оформлять код на Python, React или строить диаграммы Mermaid .
- Библиотеки: Список разрешенных внешних источников (CDN) для импорта скриптов .
- SVG-графика: Инструкции по созданию векторных изображений, которые, в отличие от пиксельных, не теряют качества при масштабировании .
🛡️ Безопасность и этика: «Серые зоны» взлома 16:30
В финальной части системного промпта содержатся инструкции по безопасности. Модели запрещено упоминать сами эти правила в разговоре с пользователем, а также создавать контент, который может нанести вред здоровью или благополучию человека .
Вес Рот отмечает, что методы, которыми был получен этот промпт (например, использование «Leet speak» — специфического сленга хакеров), находятся в «серой зоне» информационной безопасности . По его мнению, в будущем защита таких систем станет настолько совершенной, что мы больше не сможем заглянуть в их «внутреннюю кухню» .
Тем не менее, автор хвалит Anthropic за открытость: компания часто сама публикует результаты своих исследований в блоге (например, о методах Chain of Thought), что помогает всей индустрии ИИ двигаться вперед .