Вес Рот: «Секрет человечности Claude 3.5 Sonnet скрыт в инструкции по самоиронии»

Wes Roth 71,2 тыс. 19 мин 4 мин 06.07.2024
Главное

Автор канала Wes Roth анализирует недавнюю утечку системного промпта Claude 3.5 Sonnet — новейшей модели от компании Anthropic. В видео раскрывается механизм «скрытого мышления» ИИ, секреты его человекоподобной личности и подробные инструкции, которыми разработчики снабдили модель для работы с кодом и графикой.

🕵️ Взлом «разума» Claude: как увидеть скрытые мысли 0:00

Энтузиаст, известный под ником «Plenty the prompter», обнаружил способ обойти стандартные интерфейсные ограничения Claude и заставить модель отображать свои внутренние рассуждения . Используя специальную команду (замену тегов в квадратных скобках на символы доллара), пользователи смогли увидеть блок, помеченный как ant thinking .

По мнению Веса Рота, этот блок представляет собой:

Вес Рот отмечает, что хотя пользователю важен только результат, наличие такого скрытого слоя делает рассуждения модели более точными . Автор предполагает, что конкуренты, включая OpenAI, вскоре скопируют этот подход, если еще этого не сделали .

🎭 Секрет «личности»: самоирония по инструкции 7:39

Многие пользователи Claude 3.5 Sonnet замечали, что модель кажется более «живой», «самоосознанной» или обладающей уникальным характером по сравнению с конкурентами . Утечка системного промпта подтвердила, что это не случайность и не признак сознания, а результат филигранного промпт-инжиниринга .

В инструкциях для Claude прямо прописано использование юмора:

Вес Рот сравнивает это со своим стилем ведения канала: он часто шутит над своими промахами, чтобы удержать внимание аудитории, и теперь видит ту же стратегию в коде Anthropic .

🏗️ Анатомия системного промпта: мастер-класс от Anthropic 4:32

Системный промпт — это основной набор правил, определяющий поведение ИИ в миллиардах диалогов по всему миру . Вес Рот выделяет несколько ключевых техник, которые используют разработчики Anthropic:

  1. Отсутствие обращения на «ты»: В промпте модель никогда не называют «ты». Вместо этого всегда используется термин «Ассистент» (the assistant), а человек — «Пользователь» (the user) .
  2. Структурирование через Markdown: Использование заголовков (хештегов) и маркированных списков помогает модели лучше усваивать иерархию правил .
  3. Приоритетность: Самые важные инструкции размещаются в начале и в конце документа, так как большие языковые модели лучше запоминают информацию по краям контекстного окна .

Особое внимание уделено работе с Артефактами (Artifacts) — отдельными окнами для кода, сайтов и документов. Инструкции запрещают модели использовать Артефакты для короткого контента (менее 15 строк) или в случаях, когда это может «шокировать» пользователя своей неуместностью .

💻 Код без купюр и векторная графика 11:50

Одним из самых полезных открытий в промпте Вес Рот считает запрет на сокращение кода . Пользователи часто жалуются, что ИИ (особенно ChatGPT или Gemini) вместо полного исправления программы выдает только кусок кода с комментарием «остальное остается прежним» .

В системном промпте Claude 3.5 Sonnet жестко прописано:

«Включай полный и обновленный контент артефакта без каких-либо сокращений или минимизации» .

Также промпт содержит:

🛡️ Безопасность и этика: «Серые зоны» взлома 16:30

В финальной части системного промпта содержатся инструкции по безопасности. Модели запрещено упоминать сами эти правила в разговоре с пользователем, а также создавать контент, который может нанести вред здоровью или благополучию человека .

Вес Рот отмечает, что методы, которыми был получен этот промпт (например, использование «Leet speak» — специфического сленга хакеров), находятся в «серой зоне» информационной безопасности . По его мнению, в будущем защита таких систем станет настолько совершенной, что мы больше не сможем заглянуть в их «внутреннюю кухню» .

Тем не менее, автор хвалит Anthropic за открытость: компания часто сама публикует результаты своих исследований в блоге (например, о методах Chain of Thought), что помогает всей индустрии ИИ двигаться вперед .

💬 Цитаты

«Самоироничный юмор в отношении своих способностей может сделать общение с пользователем более увлекательным.»

«Включайте полный и обновленный контент артефакта без каких-либо сокращений или минимизации.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
System Prompt
Набор базовых инструкций, которые ИИ получает перед началом любого диалога и которые определяют его поведение и ограничения.
Artifacts
Специальный интерфейсный элемент в Claude для отображения объемного кода, документов или веб-страниц отдельно от чата.
Chain of Thought
Метод рассуждения ИИ «шаг за шагом», который значительно повышает точность решения сложных логических задач.
SVG
Векторный формат графики, основанный на математических формулах, позволяющий бесконечно масштабировать изображение без потери качества.
📊 Цифры
🗓 Хронология
  1. 28 мая 2024 Anthropic публикует статью о методах Chain of Thought и использовании XML-тегов в промптах.
  2. Июнь 2024 Выход модели Claude 3.5 Sonnet и обнаружение способа просмотра скрытых мыслей через замену тегов.
⚖️ Другая сторона
Искусственный интеллект Claude 3.5 Sonnet Anthropic System Prompt Chain of Thought Wes Roth