Coercing LLMs to Do and Reveal (Almost) Anything with Jonas Geiping - 678

The TWIML AI Podcast 854 50 мин 4 мин 01.04.2024

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Йонасом Гайпингом, руководителем исследовательской группы в Институте ELLIS и Институте интеллектуальных систем Макса Планка. Обсуждение строится вокруг резонансной научной работы «Принуждение LLM делать и раскрывать (почти) всё что угодно», которая ставит под сомнение готовность больших языковых моделей к интеграции в критически важные системы и автономные агенты.

🛡️ Фундаментальная уязвимость: почему LLM нельзя доверять действия 1:06

Йонас Гайпинг считает, что текущий энтузиазм по поводу создания «агентов» на базе LLM, способных самостоятельно писать код или взаимодействовать с физическим миром, преждевременен с точки зрения безопасности . По мнению исследователя, как только модель получает возможность совершать действия, неизбежно появляется способ заставить её выполнить эти действия вопреки намерениям разработчика.

Ключевые тезисы о безопасности агентов:

🔓 Роль открытых моделей в исследованиях безопасности 4:11

Обсуждая экосистему ИИ, собеседники подчеркивают критическую важность моделей с открытыми весами (open weights), таких как Llama .

Йонас Гайпинг разделяет «хакинг» и «исследования безопасности»:

  1. Хакинг (Black Box): Попытки обмануть ChatGPT или Claude через API интересны, но они не позволяют понять почему атака сработала. Это работа с «черным ящиком» .
  2. Исследования (White Box): Работа с открытыми моделями позволяет исследователям видеть внутренние процессы, градиенты и архитектуру, что необходимо для создания надежных методов защиты .

Интересным наблюдением Гайпинга является феномен переносимости атак (transferability). Он утверждает, что атаки, оптимизированные против открытых моделей (например, Llama), часто срабатывают и против закрытых проприетарных моделей (OpenAI) . Это происходит потому, что большинство современных LLM имеют схожую архитектуру и обучаются на одних и тех же массивах данных, таких как Common Crawl .

🎭 Манипуляция через «ролевой хакинг» и симуляцию кода 8:29

Одной из самых ярких частей исследования Гайпинга является анализ того, как именно LLM поддаются влиянию. По его словам, модели часто ведут себя не как интеллектуальные сущности, а как «симуляторы» .

Примеры выявленных механизмов атак:

📉 Математика против здравого смысла: алгоритм GCG 21:59

Гайпинг подробно останавливается на технической стороне вопроса, упоминая прорывной алгоритм GCG (Greedy Coordinate Gradient), представленный в работе Энди Зоу.

Долгое время считалось, что градиентные атаки (стандарт для компьютерного зрения) не работают в тексте из-за его дискретности (слова нельзя плавно менять, как пиксели). Однако GCG показал обратное:

🧱 Тупик в защите и «дорожные блоки» 32:25

На вопрос Чаррингтона о том, как защитить модели, Гайпинг отвечает со сдержанным пессимизмом. По его мнению, все современные методы защиты — это лишь временные «дорожные блоки», а не фундаментальное решение .

Рассматриваемые методы защиты:

  1. Фильтрация по перплексии (Perplexity filtering): Если ввод выглядит как абракадабра (высокая перплексия), система его блокирует. Контраргумент Гайпинга: атаку можно оптимизировать так, чтобы она звучала как естественный язык .
  2. Модели-стражи (Guard models): Meta выпустила Llama Guard для фильтрации входов и выходов. Однако злоумышленник может создать атаку, которая обманет и основную модель, и «стража» одновременно .
  3. Ограничение вывода (JSON-схемы): Это сужает поверхность атаки, но делает модель менее полезной и гибкой .

Йонас проводит аналогию с безопасностью в IT-индустрии (например, SQL-инъекции): разработчиков десятилетиями учили не доверять пользовательскому вводу, но LLM по своей сути построены на приеме свободного текста, что создает вечный конфликт безопасности и функциональности .

🤖 Роботы и «магические слова» выключения 48:25

В финале дискуссии собеседники обсуждают будущее, где LLM встроены в бытовую технику и роботов-курьеров. Гайпинг называет этот сценарий «самой странной временной шкалой». Представьте мир, где вы можете произнести определенное «магическое слово» (оптимизированную последовательность звуков или текста), и проезжающий мимо робот Amazon мгновенно отключится или отдаст вам посылку .

Исследователь подчеркивает, что модель не просто «ошибается», она «сверхчеловечески убеждаема» (superhumanly persuadable) . Это свойство делает использование LLM в критических интерфейсах (банкинг, управление инфраструктурой) крайне рискованным занятием в обозримом будущем.