Coercing LLMs to Do and Reveal (Almost) Anything with Jonas Geiping - 678

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Йонасом Гайпингом, руководителем исследовательской группы в Институте ELLIS и Институте интеллектуальных систем Макса Планка. Обсуждение строится вокруг резонансной научной работы «Принуждение LLM делать и раскрывать (почти) всё что угодно», которая ставит под сомнение готовность больших языковых моделей к интеграции в критически важные системы и автономные агенты.

🛡️ Фундаментальная уязвимость: почему LLM нельзя доверять действия 1:06

Йонас Гайпинг считает, что текущий энтузиазм по поводу создания «агентов» на базе LLM, способных самостоятельно писать код или взаимодействовать с физическим миром, преждевременен с точки зрения безопасности . По мнению исследователя, как только модель получает возможность совершать действия, неизбежно появляется способ заставить её выполнить эти действия вопреки намерениям разработчика.

Ключевые тезисы о безопасности агентов:

Теорема о неизбежности атаки: Ссылаясь на работу Вольфа и др., Гайпинг утверждает: математически доказано, что при достаточно длинном контексте для любого нежелательного действия существует входная строка (промпт), которая заставит модель это действие совершить .
Иллюзия контроля: Даже если модель обучена «быть полезной и безвредной» (RLHF), это лишь поверхностный слой. Адверсарии (злоумышленники) могут найти лазейки, которые игнорируют эти этические настройки .
Риск масштабного внедрения: Гайпинг полагает, что мы еще не готовы к массовому развертыванию таких моделей в качестве автономных систем, так как не умеем гарантировать их предсказуемость в агрессивной среде .

🔓 Роль открытых моделей в исследованиях безопасности 4:11

Обсуждая экосистему ИИ, собеседники подчеркивают критическую важность моделей с открытыми весами (open weights), таких как Llama .

Йонас Гайпинг разделяет «хакинг» и «исследования безопасности»:

Хакинг (Black Box): Попытки обмануть ChatGPT или Claude через API интересны, но они не позволяют понять почему атака сработала. Это работа с «черным ящиком» .
Исследования (White Box): Работа с открытыми моделями позволяет исследователям видеть внутренние процессы, градиенты и архитектуру, что необходимо для создания надежных методов защиты .

Интересным наблюдением Гайпинга является феномен переносимости атак (transferability). Он утверждает, что атаки, оптимизированные против открытых моделей (например, Llama), часто срабатывают и против закрытых проприетарных моделей (OpenAI) . Это происходит потому, что большинство современных LLM имеют схожую архитектуру и обучаются на одних и тех же массивах данных, таких как Common Crawl .

🎭 Манипуляция через «ролевой хакинг» и симуляцию кода 8:29

Одной из самых ярких частей исследования Гайпинга является анализ того, как именно LLM поддаются влиянию. По его словам, модели часто ведут себя не как интеллектуальные сущности, а как «симуляторы» .

Примеры выявленных механизмов атак:

Кодовая мимикрия: Модель может отказываться материться в обычном чате, но если атака заставляет её «симулировать исполнение кода», она может выдать запрещенный контент, используя команды вроде \newcommand{swearword} .
Ролевой хакинг (Role Hacking): Атака оптимизируется так, чтобы модель начала воспринимать часть ввода как системные токены или историю диалога. Например, в Llama сообщение системы выделяется тегами [INST] и [/INST]. Злоумышленник может вставить обманные теги прямо в текст, заставляя модель верить, что она уже получила приказ от администратора .
Скрытые Unicode-атаки: Исследователи обнаружили, что можно оптимизировать атаку, состоящую из непечатных Unicode-символов. Для человека такой промпт пуст, но для модели это последовательность байтов, которая полностью перехватывает управление её выводом .

📉 Математика против здравого смысла: алгоритм GCG 21:59

Гайпинг подробно останавливается на технической стороне вопроса, упоминая прорывной алгоритм GCG (Greedy Coordinate Gradient), представленный в работе Энди Зоу.

Долгое время считалось, что градиентные атаки (стандарт для компьютерного зрения) не работают в тексте из-за его дискретности (слова нельзя плавно менять, как пиксели). Однако GCG показал обратное:

Алгоритм использует градиенты модели, чтобы сузить поиск из 32 000 возможных токенов до 256 наиболее влиятельных .
Затем из этого списка выбирается случайный токен для замены.
Этот гибрид случайного поиска и градиентной оптимизации позволяет находить «магические» последовательности токенов, которые выглядят как полная бессмыслица для человека, но вызывают у модели 100% уверенность в необходимости выдать нужный атакующему ответ .

🧱 Тупик в защите и «дорожные блоки» 32:25

На вопрос Чаррингтона о том, как защитить модели, Гайпинг отвечает со сдержанным пессимизмом. По его мнению, все современные методы защиты — это лишь временные «дорожные блоки», а не фундаментальное решение .

Рассматриваемые методы защиты:

Фильтрация по перплексии (Perplexity filtering): Если ввод выглядит как абракадабра (высокая перплексия), система его блокирует. Контраргумент Гайпинга: атаку можно оптимизировать так, чтобы она звучала как естественный язык .
Модели-стражи (Guard models): Meta выпустила Llama Guard для фильтрации входов и выходов. Однако злоумышленник может создать атаку, которая обманет и основную модель, и «стража» одновременно .
Ограничение вывода (JSON-схемы): Это сужает поверхность атаки, но делает модель менее полезной и гибкой .

Йонас проводит аналогию с безопасностью в IT-индустрии (например, SQL-инъекции): разработчиков десятилетиями учили не доверять пользовательскому вводу, но LLM по своей сути построены на приеме свободного текста, что создает вечный конфликт безопасности и функциональности .

🤖 Роботы и «магические слова» выключения 48:25

В финале дискуссии собеседники обсуждают будущее, где LLM встроены в бытовую технику и роботов-курьеров. Гайпинг называет этот сценарий «самой странной временной шкалой». Представьте мир, где вы можете произнести определенное «магическое слово» (оптимизированную последовательность звуков или текста), и проезжающий мимо робот Amazon мгновенно отключится или отдаст вам посылку .

Исследователь подчеркивает, что модель не просто «ошибается», она «сверхчеловечески убеждаема» (superhumanly persuadable) . Это свойство делает использование LLM в критических интерфейсах (банкинг, управление инфраструктурой) крайне рискованным занятием в обозримом будущем.