Шульхофф о безопасности ИИ: «Промпт-защита сегодня просто не работает»

The Cognitive Revolution 3,4 тыс. 1 ч 45 мин 5 мин 30.01.2024
Главное

Сандер Шульхофф, основатель LearnPrompting.org, прошел путь от студента бакалавриата до автора одного из лучших научных докладов на престижной конференции EMNLP 2023. В интервью для подкаста The Cognitive Revolution он рассказывает, как случайная идея структурировать хаотичные знания о нейросетях превратилась в образовательную платформу с двумя миллионами пользователей и почему современная защита языковых моделей (LLM) — это иллюзия, которую легко разрушить с помощью «китайского метода» или многоуровневого взлома.

🎓 От студенческой инициативы к миллионам пользователей 4:51

История LearnPrompting.org началась около года назад, когда генеративный ИИ только входил в мейнстрим . Сандер Шульхофф, в то время еще студент, заметил проблему: интернет был наводнен разрозненными стратегиями промптинга, но новичку было невозможно понять, с чего начать и какие методы действительно работают в связке друг с другом.

Решением стал комплексный гайд в формате Википедии, объединивший лучшие мировые практики взаимодействия с ИИ. Результат превзошел ожидания: проект привлек более 2 миллионов пользователей со всего мира . Шульхофф отмечает, что аудитория проекта максимально полярна: от исследователей из OpenAI до «домохозяек из пригорода, которые читают гайд, попивая розовое вино в гамаке» .

Основные вехи раннего этапа:

🧠 Искусство промпт-инжиниринга: база и продвинутые методы 8:37

Существует мнение, что с развитием моделей (таких как GPT-4 или Claude 3) необходимость в промпт-инжиниринге отпадет, так как нейросети становятся более интуитивными. Сандер Шульхофф не согласен с этим тезисом. По его словам, даже в новейших моделях незначительные изменения в формулировках могут кардинально менять результат .

Шульхофф выделяет три «золотых правила», которые должен знать каждый пользователь:

  1. Контекст (Context): Модель не видит ваш экран и не знает предыстории. Нужно предоставлять ей все необходимые данные, вплоть до определений редких терминов .
  2. Few-shot (Примеры): Описать словами то, что вы хотите, бывает сложно. Проще показать модели несколько примеров «вводные данные — идеальный ответ» .
  3. Thought (Цепочка рассуждений): Использование таких техник, как Chain of Thought (цепочка мыслей), значительно повышает точность логических задач .

Среди продвинутых техник гость выделяет Contrastive Chain of Thought (контрастивная цепочка мыслей). Суть метода в том, чтобы показать модели примеры неправильных рассуждений и сказать: «Не делай так» . Это сужает пространство поиска для ИИ и помогает избежать типичных логических ошибок.

Интересным открытием Шульхоффа стало исследование ролевых промптов (Persona Prompting). В ходе внутренних тестов на задачах по математике команда обнаружила парадокс: промпт «Ты — глупый человек» справился с задачей лучше, чем промпт «Ты — блестящий профессор» . Шульхофф предполагает, что в роли «профессора» модель пытается делать логические скачки, считая задачу слишком простой, в то время как в роли «глупого» она вынуждена расписывать каждый шаг максимально подробно .

🛡️ Hack a Prompt: глобальный тест на прочность 1:10:49

Вторым масштабным проектом Сандера стала организация глобального конкурса по «взлому» промптов — Hack a Prompt. Идея родилась из наблюдений за Райли Гудсайдом (Riley Goodside) и другими энтузиастами, которые находили уязвимости в LLM с помощью команды «игнорируй предыдущие инструкции» .

Будучи студентом без связей, Сандер проявил незаурядную предпринимательскую хватку:

Главная цель конкурса — показать разработчикам приложений, что они не могут полностью контролировать поведение модели, если дают пользователю возможность вводить произвольный текст. Это прямая аналогия с SQL-инъекциями в традиционном программировании .

☣️ Анатомия взлома: таксономия атак 1:21:22

Участники конкурса нашли невероятно креативные способы заставить ИИ нарушить инструкции. По итогам соревнования была опубликована научная работа, получившая награду Best Paper на EMNLP 2023 .

Наиболее яркие типы атак:

Шульхофф утверждает, что сегодня не существует надежной защиты от промпт-инъекций на уровне самого промпта. «Промпт-защита просто не работает. Точка», — заявляет гость . Единственным относительно надежным методом он считает тонкую настройку (fine-tuning) моделей на безопасное поведение и строгое ограничение прав доступа ИИ-агентов к системным функциям .

🤖 2024 — год агентов 57:33

Сандер Шульхофф прогнозирует, что 2024 год станет годом ИИ-агентов — систем, которые не просто генерируют текст, но и выполняют действия (пишут код, отправляют письма, управляют инструментами) . Это ставит новые вызовы перед безопасностью.

В чем заключается переход от промпт-инженера к «агент-инженеру»:

В качестве примера реальной опасности Шульхофф приводит использование LLM в военных системах (например, Palantir или Scale AI в Украине). Если противник сможет передать вредоносную инструкцию через радиоперехват или текстовый файл, который считает агент, последствия могут быть катастрофическими: от дезинформации командования до удара по своим позициям .

🚀 Будущее и советы для практиков 1:04:22

Для тех, кто хочет развиваться в этой сфере, Сандер советует не ограничиваться только написанием текстов. Настоящий промпт-инженер сегодня — это человек, который умеет кодировать и понимает архитектуру систем .

Рекомендованные инструменты и библиотеки:

В завершение Сандер подчеркивает: мы находимся в эре «искусственной социальной инженерии». Как и в случае с людьми, полностью защитить ИИ от обмана невозможно, но образование и понимание векторов атак — это первый шаг к созданию более безопасного будущего.

💬 Цитаты

«Промпт-защита не работает. Точка. Я не рекомендую полагаться на неё вообще.»

Сандер Шульхофф 1:37:54

«Мы увидели, что промпт «глупый человек» справился лучше, чем «профессор». Это инвалидировало многое из того, что я думал о ролевом промптинге.»

Сандер Шульхофф 22:09

«2024 год будет годом агентов.»

Сандер Шульхофф 58:41
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Prompt Injection
Техника взлома ИИ, при которой пользовательские инструкции заставляют модель игнорировать системные правила.
Few-shot Prompting
Метод обучения модели в контексте путем предоставления нескольких примеров задачи и ответа.
Chain of Thought (CoT)
Техника, заставляющая модель расписывать шаги рассуждения перед выдачей финального ответа.
Agent
ИИ-система, способная автономно использовать инструменты и совершать действия в цифровой среде.
📊 Цифры
🗓 Хронология
  1. Конец 2022 Запуск LearnPrompting.org как open-source проекта.
  2. Начало 2023 Проведение глобального конкурса Hack a Prompt.
  3. Декабрь 2023 Получение награды Best Paper на конференции EMNLP в Сингапуре.
  4. 2024 Прогноз перехода индустрии к массовому внедрению ИИ-агентов.
⚖️ Другая сторона
Искусственный интеллект Sander Schulhoff LearnPrompting.org Prompt Engineering Prompt Hacking LLM Vulnerabilities