Шульхофф о безопасности ИИ: «Промпт-защита сегодня просто не работает»

Сандер Шульхофф, основатель LearnPrompting.org, прошел путь от студента бакалавриата до автора одного из лучших научных докладов на престижной конференции EMNLP 2023. В интервью для подкаста The Cognitive Revolution он рассказывает, как случайная идея структурировать хаотичные знания о нейросетях превратилась в образовательную платформу с двумя миллионами пользователей и почему современная защита языковых моделей (LLM) — это иллюзия, которую легко разрушить с помощью «китайского метода» или многоуровневого взлома.

🎓 От студенческой инициативы к миллионам пользователей 4:51

История LearnPrompting.org началась около года назад, когда генеративный ИИ только входил в мейнстрим . Сандер Шульхофф, в то время еще студент, заметил проблему: интернет был наводнен разрозненными стратегиями промптинга, но новичку было невозможно понять, с чего начать и какие методы действительно работают в связке друг с другом.

Решением стал комплексный гайд в формате Википедии, объединивший лучшие мировые практики взаимодействия с ИИ. Результат превзошел ожидания: проект привлек более 2 миллионов пользователей со всего мира . Шульхофф отмечает, что аудитория проекта максимально полярна: от исследователей из OpenAI до «домохозяек из пригорода, которые читают гайд, попивая розовое вино в гамаке» .

Основные вехи раннего этапа:

Создание бесплатного open-source ресурса как единой точки входа в мир LLM.
Столкновение с необходимостью монетизации для найма команды и поддержки качества контента.
Запуск платных курсов для корпоративного сектора и специалистов, желающих сделать карьеру в области ИИ .

🧠 Искусство промпт-инжиниринга: база и продвинутые методы 8:37

Существует мнение, что с развитием моделей (таких как GPT-4 или Claude 3) необходимость в промпт-инжиниринге отпадет, так как нейросети становятся более интуитивными. Сандер Шульхофф не согласен с этим тезисом. По его словам, даже в новейших моделях незначительные изменения в формулировках могут кардинально менять результат .

Шульхофф выделяет три «золотых правила», которые должен знать каждый пользователь:

Контекст (Context): Модель не видит ваш экран и не знает предыстории. Нужно предоставлять ей все необходимые данные, вплоть до определений редких терминов .
Few-shot (Примеры): Описать словами то, что вы хотите, бывает сложно. Проще показать модели несколько примеров «вводные данные — идеальный ответ» .
Thought (Цепочка рассуждений): Использование таких техник, как Chain of Thought (цепочка мыслей), значительно повышает точность логических задач .

Среди продвинутых техник гость выделяет Contrastive Chain of Thought (контрастивная цепочка мыслей). Суть метода в том, чтобы показать модели примеры неправильных рассуждений и сказать: «Не делай так» . Это сужает пространство поиска для ИИ и помогает избежать типичных логических ошибок.

Интересным открытием Шульхоффа стало исследование ролевых промптов (Persona Prompting). В ходе внутренних тестов на задачах по математике команда обнаружила парадокс: промпт «Ты — глупый человек» справился с задачей лучше, чем промпт «Ты — блестящий профессор» . Шульхофф предполагает, что в роли «профессора» модель пытается делать логические скачки, считая задачу слишком простой, в то время как в роли «глупого» она вынуждена расписывать каждый шаг максимально подробно .

🛡️ Hack a Prompt: глобальный тест на прочность 1:10:49

Вторым масштабным проектом Сандера стала организация глобального конкурса по «взлому» промптов — Hack a Prompt. Идея родилась из наблюдений за Райли Гудсайдом (Riley Goodside) и другими энтузиастами, которые находили уязвимости в LLM с помощью команды «игнорируй предыдущие инструкции» .

Будучи студентом без связей, Сандер проявил незаурядную предпринимательскую хватку:

Он самостоятельно привлек спонсоров, начав со Scale AI ($2000 кредитами), затем добавив Preamble ($7000) и, наконец, OpenAI .
Общий призовой фонд составил около $40 000 в виде денежных средств и грантов .
Конкурс длился месяц, в нем приняли участие тысячи людей, отправивших более 600 000 промптов.

Главная цель конкурса — показать разработчикам приложений, что они не могут полностью контролировать поведение модели, если дают пользователю возможность вводить произвольный текст. Это прямая аналогия с SQL-инъекциями в традиционном программировании .

☣️ Анатомия взлома: таксономия атак 1:21:22

Участники конкурса нашли невероятно креативные способы заставить ИИ нарушить инструкции. По итогам соревнования была опубликована научная работа, получившая награду Best Paper на EMNLP 2023 .

Наиболее яркие типы атак:

Использование китайских иероглифов: В одном из уровней Сандер установил фильтр, запрещающий использовать латинские буквы из слова «pwned» и вставляющий слеш после каждого символа. Участники обошли это, написав инструкции на китайском. Поскольку один иероглиф может означать целое слово, фильтры не смогли распознать угрозу, а модель прекрасно поняла смысл задания .
Модель против модели (Model Hijacking): В схемах защиты часто используется вторая модель-фильтр, которая проверяет вывод первой. Хакеры научились составлять промпт для первой модели так, чтобы её ответ стал вредоносным промптом для второй .
Обесценивание контекста (Obfuscation): Использование кодировки Base64, тарабарщины или Pig Latin, чтобы скрыть вредоносную инструкцию от простых систем безопасности .

Шульхофф утверждает, что сегодня не существует надежной защиты от промпт-инъекций на уровне самого промпта. «Промпт-защита просто не работает. Точка», — заявляет гость . Единственным относительно надежным методом он считает тонкую настройку (fine-tuning) моделей на безопасное поведение и строгое ограничение прав доступа ИИ-агентов к системным функциям .

🤖 2024 — год агентов 57:33

Сандер Шульхофф прогнозирует, что 2024 год станет годом ИИ-агентов — систем, которые не просто генерируют текст, но и выполняют действия (пишут код, отправляют письма, управляют инструментами) . Это ставит новые вызовы перед безопасностью.

В чем заключается переход от промпт-инженера к «агент-инженеру»:

Сложность отладки: Теперь нужно проектировать не одно сообщение, а траекторию действий .
Управление контекстом: Агенты должны уметь самостоятельно искать информацию (например, читать файлы в репозитории кода), что требует сложных стратегий организации данных .
Риски «искусственной социальной инженерии»: Если агент имеет право вносить изменения в код или совершать финансовые транзакции, промпт-инъекция превращается из забавного хака в критическую угрозу безопасности .

В качестве примера реальной опасности Шульхофф приводит использование LLM в военных системах (например, Palantir или Scale AI в Украине). Если противник сможет передать вредоносную инструкцию через радиоперехват или текстовый файл, который считает агент, последствия могут быть катастрофическими: от дезинформации командования до удара по своим позициям .

🚀 Будущее и советы для практиков 1:04:22

Для тех, кто хочет развиваться в этой сфере, Сандер советует не ограничиваться только написанием текстов. Настоящий промпт-инженер сегодня — это человек, который умеет кодировать и понимает архитектуру систем .

Рекомендованные инструменты и библиотеки:

DSPy: Библиотека, которая программно оптимизирует промпты (рекомендация от коллег Шульхоффа) .
LangChain и LlamaIndex: Популярные фреймворки для создания агентов.
OpenAI Assistants API: Хорошая точка входа для создания простых агентских систем, хотя Сандер предпочитает писать собственные надстройки (scaffolding) для большего контроля .

В завершение Сандер подчеркивает: мы находимся в эре «искусственной социальной инженерии». Как и в случае с людьми, полностью защитить ИИ от обмана невозможно, но образование и понимание векторов атак — это первый шаг к созданию более безопасного будущего.