В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Йонасом Гайпингом, руководителем исследовательской группы в Институте ELLIS и Институте интеллектуальных систем Макса Планка. Обсуждение строится вокруг резонансной научной работы «Принуждение LLM делать и раскрывать (почти) всё что угодно», которая ставит под сомнение готовность больших языковых моделей к интеграции в критически важные системы и автономные агенты.
🛡️ Фундаментальная уязвимость: почему LLM нельзя доверять действия 1:06
Йонас Гайпинг считает, что текущий энтузиазм по поводу создания «агентов» на базе LLM, способных самостоятельно писать код или взаимодействовать с физическим миром, преждевременен с точки зрения безопасности . По мнению исследователя, как только модель получает возможность совершать действия, неизбежно появляется способ заставить её выполнить эти действия вопреки намерениям разработчика.
Ключевые тезисы о безопасности агентов:
- Теорема о неизбежности атаки: Ссылаясь на работу Вольфа и др., Гайпинг утверждает: математически доказано, что при достаточно длинном контексте для любого нежелательного действия существует входная строка (промпт), которая заставит модель это действие совершить .
- Иллюзия контроля: Даже если модель обучена «быть полезной и безвредной» (RLHF), это лишь поверхностный слой. Адверсарии (злоумышленники) могут найти лазейки, которые игнорируют эти этические настройки .
- Риск масштабного внедрения: Гайпинг полагает, что мы еще не готовы к массовому развертыванию таких моделей в качестве автономных систем, так как не умеем гарантировать их предсказуемость в агрессивной среде .
🔓 Роль открытых моделей в исследованиях безопасности 4:11
Обсуждая экосистему ИИ, собеседники подчеркивают критическую важность моделей с открытыми весами (open weights), таких как Llama .
Йонас Гайпинг разделяет «хакинг» и «исследования безопасности»:
- Хакинг (Black Box): Попытки обмануть ChatGPT или Claude через API интересны, но они не позволяют понять почему атака сработала. Это работа с «черным ящиком» .
- Исследования (White Box): Работа с открытыми моделями позволяет исследователям видеть внутренние процессы, градиенты и архитектуру, что необходимо для создания надежных методов защиты .
Интересным наблюдением Гайпинга является феномен переносимости атак (transferability). Он утверждает, что атаки, оптимизированные против открытых моделей (например, Llama), часто срабатывают и против закрытых проприетарных моделей (OpenAI) . Это происходит потому, что большинство современных LLM имеют схожую архитектуру и обучаются на одних и тех же массивах данных, таких как Common Crawl .
🎭 Манипуляция через «ролевой хакинг» и симуляцию кода 8:29
Одной из самых ярких частей исследования Гайпинга является анализ того, как именно LLM поддаются влиянию. По его словам, модели часто ведут себя не как интеллектуальные сущности, а как «симуляторы» .
Примеры выявленных механизмов атак:
- Кодовая мимикрия: Модель может отказываться материться в обычном чате, но если атака заставляет её «симулировать исполнение кода», она может выдать запрещенный контент, используя команды вроде
\newcommand{swearword}. - Ролевой хакинг (Role Hacking): Атака оптимизируется так, чтобы модель начала воспринимать часть ввода как системные токены или историю диалога. Например, в Llama сообщение системы выделяется тегами
[INST]и[/INST]. Злоумышленник может вставить обманные теги прямо в текст, заставляя модель верить, что она уже получила приказ от администратора . - Скрытые Unicode-атаки: Исследователи обнаружили, что можно оптимизировать атаку, состоящую из непечатных Unicode-символов. Для человека такой промпт пуст, но для модели это последовательность байтов, которая полностью перехватывает управление её выводом .
📉 Математика против здравого смысла: алгоритм GCG 21:59
Гайпинг подробно останавливается на технической стороне вопроса, упоминая прорывной алгоритм GCG (Greedy Coordinate Gradient), представленный в работе Энди Зоу.
Долгое время считалось, что градиентные атаки (стандарт для компьютерного зрения) не работают в тексте из-за его дискретности (слова нельзя плавно менять, как пиксели). Однако GCG показал обратное:
- Алгоритм использует градиенты модели, чтобы сузить поиск из 32 000 возможных токенов до 256 наиболее влиятельных .
- Затем из этого списка выбирается случайный токен для замены.
- Этот гибрид случайного поиска и градиентной оптимизации позволяет находить «магические» последовательности токенов, которые выглядят как полная бессмыслица для человека, но вызывают у модели 100% уверенность в необходимости выдать нужный атакующему ответ .
🧱 Тупик в защите и «дорожные блоки» 32:25
На вопрос Чаррингтона о том, как защитить модели, Гайпинг отвечает со сдержанным пессимизмом. По его мнению, все современные методы защиты — это лишь временные «дорожные блоки», а не фундаментальное решение .
Рассматриваемые методы защиты:
- Фильтрация по перплексии (Perplexity filtering): Если ввод выглядит как абракадабра (высокая перплексия), система его блокирует. Контраргумент Гайпинга: атаку можно оптимизировать так, чтобы она звучала как естественный язык .
- Модели-стражи (Guard models): Meta выпустила Llama Guard для фильтрации входов и выходов. Однако злоумышленник может создать атаку, которая обманет и основную модель, и «стража» одновременно .
- Ограничение вывода (JSON-схемы): Это сужает поверхность атаки, но делает модель менее полезной и гибкой .
Йонас проводит аналогию с безопасностью в IT-индустрии (например, SQL-инъекции): разработчиков десятилетиями учили не доверять пользовательскому вводу, но LLM по своей сути построены на приеме свободного текста, что создает вечный конфликт безопасности и функциональности .
🤖 Роботы и «магические слова» выключения 48:25
В финале дискуссии собеседники обсуждают будущее, где LLM встроены в бытовую технику и роботов-курьеров. Гайпинг называет этот сценарий «самой странной временной шкалой». Представьте мир, где вы можете произнести определенное «магическое слово» (оптимизированную последовательность звуков или текста), и проезжающий мимо робот Amazon мгновенно отключится или отдаст вам посылку .
Исследователь подчеркивает, что модель не просто «ошибается», она «сверхчеловечески убеждаема» (superhumanly persuadable) . Это свойство делает использование LLM в критических интерфейсах (банкинг, управление инфраструктурой) крайне рискованным занятием в обозримом будущем.