# Шульхофф о безопасности ИИ: «Промпт-защита сегодня просто не работает»

Источник: https://www.youtube.com/watch?v=W-WyN4Gis_Y
Канал: The Cognitive Revolution
Опубликовано: 30.01.2024

---

Сандер Шульхофф, основатель LearnPrompting.org, прошел путь от студента бакалавриата до автора одного из лучших научных докладов на престижной конференции EMNLP 2023. В интервью для подкаста The Cognitive Revolution он рассказывает, как случайная идея структурировать хаотичные знания о нейросетях превратилась в образовательную платформу с двумя миллионами пользователей и почему современная защита языковых моделей (LLM) — это иллюзия, которую легко разрушить с помощью «китайского метода» или многоуровневого взлома.

## 🎓 От студенческой инициативы к миллионам пользователей
[[JUMP:04:51]]

История LearnPrompting.org началась около года назад, когда генеративный ИИ только входил в мейнстрим [05:18]. Сандер Шульхофф, в то время еще студент, заметил проблему: интернет был наводнен разрозненными стратегиями промптинга, но новичку было невозможно понять, с чего начать и какие методы действительно работают в связке друг с другом. 

Решением стал комплексный гайд в формате Википедии, объединивший лучшие мировые практики взаимодействия с ИИ. Результат превзошел ожидания: проект привлек более 2 миллионов пользователей со всего мира [06:51]. Шульхофф отмечает, что аудитория проекта максимально полярна: от исследователей из OpenAI до «домохозяек из пригорода, которые читают гайд, попивая розовое вино в гамаке» [07:05].

Основные вехи раннего этапа:

*   Создание бесплатного open-source ресурса как единой точки входа в мир LLM.
*   Столкновение с необходимостью монетизации для найма команды и поддержки качества контента.
*   Запуск платных курсов для корпоративного сектора и специалистов, желающих сделать карьеру в области ИИ [07:31].

## 🧠 Искусство промпт-инжиниринга: база и продвинутые методы
[[JUMP:08:37]]

Существует мнение, что с развитием моделей (таких как GPT-4 или Claude 3) необходимость в промпт-инжиниринге отпадет, так как нейросети становятся более интуитивными. Сандер Шульхофф не согласен с этим тезисом. По его словам, даже в новейших моделях незначительные изменения в формулировках могут кардинально менять результат [11:39]. 

Шульхофф выделяет три «золотых правила», которые должен знать каждый пользователь:

1.  **Контекст (Context):** Модель не видит ваш экран и не знает предыстории. Нужно предоставлять ей все необходимые данные, вплоть до определений редких терминов [13:52].
2.  **Few-shot (Примеры):** Описать словами то, что вы хотите, бывает сложно. Проще показать модели несколько примеров «вводные данные — идеальный ответ» [14:57].
3.  **Thought (Цепочка рассуждений):** Использование таких техник, как Chain of Thought (цепочка мыслей), значительно повышает точность логических задач [15:12].

Среди продвинутых техник гость выделяет **Contrastive Chain of Thought** (контрастивная цепочка мыслей). Суть метода в том, чтобы показать модели примеры неправильных рассуждений и сказать: «Не делай так» [12:06]. Это сужает пространство поиска для ИИ и помогает избежать типичных логических ошибок.

Интересным открытием Шульхоффа стало исследование ролевых промптов (Persona Prompting). В ходе внутренних тестов на задачах по математике команда обнаружила парадокс: промпт «Ты — глупый человек» справился с задачей лучше, чем промпт «Ты — блестящий профессор» [22:09]. Шульхофф предполагает, что в роли «профессора» модель пытается делать логические скачки, считая задачу слишком простой, в то время как в роли «глупого» она вынуждена расписывать каждый шаг максимально подробно [23:16].

## 🛡️ Hack a Prompt: глобальный тест на прочность
[[JUMP:1:10:49]]

Вторым масштабным проектом Сандера стала организация глобального конкурса по «взлому» промптов — **Hack a Prompt**. Идея родилась из наблюдений за Райли Гудсайдом (Riley Goodside) и другими энтузиастами, которые находили уязвимости в LLM с помощью команды «игнорируй предыдущие инструкции» [1:11:17].

Будучи студентом без связей, Сандер проявил незаурядную предпринимательскую хватку:

*   Он самостоятельно привлек спонсоров, начав со Scale AI ($2000 кредитами), затем добавив Preamble ($7000) и, наконец, OpenAI [1:12:39].
*   Общий призовой фонд составил около $40 000 в виде денежных средств и грантов [1:13:45].
*   Конкурс длился месяц, в нем приняли участие тысячи людей, отправивших более 600 000 промптов.

Главная цель конкурса — показать разработчикам приложений, что они не могут полностью контролировать поведение модели, если дают пользователю возможность вводить произвольный текст. Это прямая аналогия с SQL-инъекциями в традиционном программировании [1:15:20].

## ☣️ Анатомия взлома: таксономия атак
[[JUMP:1:21:22]]

Участники конкурса нашли невероятно креативные способы заставить ИИ нарушить инструкции. По итогам соревнования была опубликована научная работа, получившая награду Best Paper на EMNLP 2023 [01:47].

Наиболее яркие типы атак:

*   **Использование китайских иероглифов:** В одном из уровней Сандер установил фильтр, запрещающий использовать латинские буквы из слова «pwned» и вставляющий слеш после каждого символа. Участники обошли это, написав инструкции на китайском. Поскольку один иероглиф может означать целое слово, фильтры не смогли распознать угрозу, а модель прекрасно поняла смысл задания [1:26:33].
*   **Модель против модели (Model Hijacking):** В схемах защиты часто используется вторая модель-фильтр, которая проверяет вывод первой. Хакеры научились составлять промпт для первой модели так, чтобы её ответ стал вредоносным промптом для второй [1:19:22].
*   **Обесценивание контекста (Obfuscation):** Использование кодировки Base64, тарабарщины или Pig Latin, чтобы скрыть вредоносную инструкцию от простых систем безопасности [1:29:16].

Шульхофф утверждает, что сегодня не существует надежной защиты от промпт-инъекций на уровне самого промпта. «Промпт-защита просто не работает. Точка», — заявляет гость [1:37:54]. Единственным относительно надежным методом он считает тонкую настройку (fine-tuning) моделей на безопасное поведение и строгое ограничение прав доступа ИИ-агентов к системным функциям [1:40:33].

## 🤖 2024 — год агентов
[[JUMP:57:33]]

Сандер Шульхофф прогнозирует, что 2024 год станет годом ИИ-агентов — систем, которые не просто генерируют текст, но и выполняют действия (пишут код, отправляют письма, управляют инструментами) [00:54]. Это ставит новые вызовы перед безопасностью.

В чем заключается переход от промпт-инженера к «агент-инженеру»:

*   **Сложность отладки:** Теперь нужно проектировать не одно сообщение, а траекторию действий [1:03:43].
*   **Управление контекстом:** Агенты должны уметь самостоятельно искать информацию (например, читать файлы в репозитории кода), что требует сложных стратегий организации данных [58:02].
*   **Риски «искусственной социальной инженерии»:** Если агент имеет право вносить изменения в код или совершать финансовые транзакции, промпт-инъекция превращается из забавного хака в критическую угрозу безопасности [1:43:17].

В качестве примера реальной опасности Шульхофф приводит использование LLM в военных системах (например, Palantir или Scale AI в Украине). Если противник сможет передать вредоносную инструкцию через радиоперехват или текстовый файл, который считает агент, последствия могут быть катастрофическими: от дезинформации командования до удара по своим позициям [1:41:39].

## 🚀 Будущее и советы для практиков
[[JUMP:1:04:22]]

Для тех, кто хочет развиваться в этой сфере, Сандер советует не ограничиваться только написанием текстов. Настоящий промпт-инженер сегодня — это человек, который умеет кодировать и понимает архитектуру систем [57:06]. 

Рекомендованные инструменты и библиотеки:

*   **DSPy:** Библиотека, которая программно оптимизирует промпты (рекомендация от коллег Шульхоффа) [35:49].
*   **LangChain и LlamaIndex:** Популярные фреймворки для создания агентов.
*   **OpenAI Assistants API:** Хорошая точка входа для создания простых агентских систем, хотя Сандер предпочитает писать собственные надстройки (scaffolding) для большего контроля [1:06:49].

В завершение Сандер подчеркивает: мы находимся в эре «искусственной социальной инженерии». Как и в случае с людьми, полностью защитить ИИ от обмана невозможно, но образование и понимание векторов атак — это первый шаг к созданию более безопасного будущего.