Сандер Шульхофф, основатель LearnPrompting.org, прошел путь от студента бакалавриата до автора одного из лучших научных докладов на престижной конференции EMNLP 2023. В интервью для подкаста The Cognitive Revolution он рассказывает, как случайная идея структурировать хаотичные знания о нейросетях превратилась в образовательную платформу с двумя миллионами пользователей и почему современная защита языковых моделей (LLM) — это иллюзия, которую легко разрушить с помощью «китайского метода» или многоуровневого взлома.
🎓 От студенческой инициативы к миллионам пользователей 4:51
История LearnPrompting.org началась около года назад, когда генеративный ИИ только входил в мейнстрим . Сандер Шульхофф, в то время еще студент, заметил проблему: интернет был наводнен разрозненными стратегиями промптинга, но новичку было невозможно понять, с чего начать и какие методы действительно работают в связке друг с другом.
Решением стал комплексный гайд в формате Википедии, объединивший лучшие мировые практики взаимодействия с ИИ. Результат превзошел ожидания: проект привлек более 2 миллионов пользователей со всего мира . Шульхофф отмечает, что аудитория проекта максимально полярна: от исследователей из OpenAI до «домохозяек из пригорода, которые читают гайд, попивая розовое вино в гамаке» .
Основные вехи раннего этапа:
- Создание бесплатного open-source ресурса как единой точки входа в мир LLM.
- Столкновение с необходимостью монетизации для найма команды и поддержки качества контента.
- Запуск платных курсов для корпоративного сектора и специалистов, желающих сделать карьеру в области ИИ .
🧠 Искусство промпт-инжиниринга: база и продвинутые методы 8:37
Существует мнение, что с развитием моделей (таких как GPT-4 или Claude 3) необходимость в промпт-инжиниринге отпадет, так как нейросети становятся более интуитивными. Сандер Шульхофф не согласен с этим тезисом. По его словам, даже в новейших моделях незначительные изменения в формулировках могут кардинально менять результат .
Шульхофф выделяет три «золотых правила», которые должен знать каждый пользователь:
- Контекст (Context): Модель не видит ваш экран и не знает предыстории. Нужно предоставлять ей все необходимые данные, вплоть до определений редких терминов .
- Few-shot (Примеры): Описать словами то, что вы хотите, бывает сложно. Проще показать модели несколько примеров «вводные данные — идеальный ответ» .
- Thought (Цепочка рассуждений): Использование таких техник, как Chain of Thought (цепочка мыслей), значительно повышает точность логических задач .
Среди продвинутых техник гость выделяет Contrastive Chain of Thought (контрастивная цепочка мыслей). Суть метода в том, чтобы показать модели примеры неправильных рассуждений и сказать: «Не делай так» . Это сужает пространство поиска для ИИ и помогает избежать типичных логических ошибок.
Интересным открытием Шульхоффа стало исследование ролевых промптов (Persona Prompting). В ходе внутренних тестов на задачах по математике команда обнаружила парадокс: промпт «Ты — глупый человек» справился с задачей лучше, чем промпт «Ты — блестящий профессор» . Шульхофф предполагает, что в роли «профессора» модель пытается делать логические скачки, считая задачу слишком простой, в то время как в роли «глупого» она вынуждена расписывать каждый шаг максимально подробно .
🛡️ Hack a Prompt: глобальный тест на прочность 1:10:49
Вторым масштабным проектом Сандера стала организация глобального конкурса по «взлому» промптов — Hack a Prompt. Идея родилась из наблюдений за Райли Гудсайдом (Riley Goodside) и другими энтузиастами, которые находили уязвимости в LLM с помощью команды «игнорируй предыдущие инструкции» .
Будучи студентом без связей, Сандер проявил незаурядную предпринимательскую хватку:
- Он самостоятельно привлек спонсоров, начав со Scale AI ($2000 кредитами), затем добавив Preamble ($7000) и, наконец, OpenAI .
- Общий призовой фонд составил около $40 000 в виде денежных средств и грантов .
- Конкурс длился месяц, в нем приняли участие тысячи людей, отправивших более 600 000 промптов.
Главная цель конкурса — показать разработчикам приложений, что они не могут полностью контролировать поведение модели, если дают пользователю возможность вводить произвольный текст. Это прямая аналогия с SQL-инъекциями в традиционном программировании .
☣️ Анатомия взлома: таксономия атак 1:21:22
Участники конкурса нашли невероятно креативные способы заставить ИИ нарушить инструкции. По итогам соревнования была опубликована научная работа, получившая награду Best Paper на EMNLP 2023 .
Наиболее яркие типы атак:
- Использование китайских иероглифов: В одном из уровней Сандер установил фильтр, запрещающий использовать латинские буквы из слова «pwned» и вставляющий слеш после каждого символа. Участники обошли это, написав инструкции на китайском. Поскольку один иероглиф может означать целое слово, фильтры не смогли распознать угрозу, а модель прекрасно поняла смысл задания .
- Модель против модели (Model Hijacking): В схемах защиты часто используется вторая модель-фильтр, которая проверяет вывод первой. Хакеры научились составлять промпт для первой модели так, чтобы её ответ стал вредоносным промптом для второй .
- Обесценивание контекста (Obfuscation): Использование кодировки Base64, тарабарщины или Pig Latin, чтобы скрыть вредоносную инструкцию от простых систем безопасности .
Шульхофф утверждает, что сегодня не существует надежной защиты от промпт-инъекций на уровне самого промпта. «Промпт-защита просто не работает. Точка», — заявляет гость . Единственным относительно надежным методом он считает тонкую настройку (fine-tuning) моделей на безопасное поведение и строгое ограничение прав доступа ИИ-агентов к системным функциям .
🤖 2024 — год агентов 57:33
Сандер Шульхофф прогнозирует, что 2024 год станет годом ИИ-агентов — систем, которые не просто генерируют текст, но и выполняют действия (пишут код, отправляют письма, управляют инструментами) . Это ставит новые вызовы перед безопасностью.
В чем заключается переход от промпт-инженера к «агент-инженеру»:
- Сложность отладки: Теперь нужно проектировать не одно сообщение, а траекторию действий .
- Управление контекстом: Агенты должны уметь самостоятельно искать информацию (например, читать файлы в репозитории кода), что требует сложных стратегий организации данных .
- Риски «искусственной социальной инженерии»: Если агент имеет право вносить изменения в код или совершать финансовые транзакции, промпт-инъекция превращается из забавного хака в критическую угрозу безопасности .
В качестве примера реальной опасности Шульхофф приводит использование LLM в военных системах (например, Palantir или Scale AI в Украине). Если противник сможет передать вредоносную инструкцию через радиоперехват или текстовый файл, который считает агент, последствия могут быть катастрофическими: от дезинформации командования до удара по своим позициям .
🚀 Будущее и советы для практиков 1:04:22
Для тех, кто хочет развиваться в этой сфере, Сандер советует не ограничиваться только написанием текстов. Настоящий промпт-инженер сегодня — это человек, который умеет кодировать и понимает архитектуру систем .
Рекомендованные инструменты и библиотеки:
- DSPy: Библиотека, которая программно оптимизирует промпты (рекомендация от коллег Шульхоффа) .
- LangChain и LlamaIndex: Популярные фреймворки для создания агентов.
- OpenAI Assistants API: Хорошая точка входа для создания простых агентских систем, хотя Сандер предпочитает писать собственные надстройки (scaffolding) для большего контроля .
В завершение Сандер подчеркивает: мы находимся в эре «искусственной социальной инженерии». Как и в случае с людьми, полностью защитить ИИ от обмана невозможно, но образование и понимание векторов атак — это первый шаг к созданию более безопасного будущего.