# Coercing LLMs to Do and Reveal (Almost) Anything with Jonas Geiping - 678

Источник: https://www.youtube.com/watch?v=--SB_qJw9sg
Канал: The TWIML AI Podcast
Опубликовано: 01.04.2024

---

В новом выпуске подкаста TWIML AI Сэм Чаррингтон беседует с Йонасом Гайпингом, руководителем исследовательской группы в Институте ELLIS и Институте интеллектуальных систем Макса Планка. Обсуждение строится вокруг резонансной научной работы «Принуждение LLM делать и раскрывать (почти) всё что угодно», которая ставит под сомнение готовность больших языковых моделей к интеграции в критически важные системы и автономные агенты.

## 🛡️ Фундаментальная уязвимость: почему LLM нельзя доверять действия
[[JUMP:01:06]]

Йонас Гайпинг считает, что текущий энтузиазм по поводу создания «агентов» на базе LLM, способных самостоятельно писать код или взаимодействовать с физическим миром, преждевременен с точки зрения безопасности [02:25]. По мнению исследователя, как только модель получает возможность совершать действия, неизбежно появляется способ заставить её выполнить эти действия вопреки намерениям разработчика.

Ключевые тезисы о безопасности агентов:

*   **Теорема о неизбежности атаки:** Ссылаясь на работу Вольфа и др., Гайпинг утверждает: математически доказано, что при достаточно длинном контексте для любого нежелательного действия существует входная строка (промпт), которая заставит модель это действие совершить [03:44].
*   **Иллюзия контроля:** Даже если модель обучена «быть полезной и безвредной» (RLHF), это лишь поверхностный слой. Адверсарии (злоумышленники) могут найти лазейки, которые игнорируют эти этические настройки [09:23].
*   **Риск масштабного внедрения:** Гайпинг полагает, что мы еще не готовы к массовому развертыванию таких моделей в качестве автономных систем, так как не умеем гарантировать их предсказуемость в агрессивной среде [03:18].

## 🔓 Роль открытых моделей в исследованиях безопасности
[[JUMP:04:11]]

Обсуждая экосистему ИИ, собеседники подчеркивают критическую важность моделей с открытыми весами (open weights), таких как Llama [05:04].

Йонас Гайпинг разделяет «хакинг» и «исследования безопасности»:

1.  **Хакинг (Black Box):** Попытки обмануть ChatGPT или Claude через API интересны, но они не позволяют понять *почему* атака сработала. Это работа с «черным ящиком» [05:18].
2.  **Исследования (White Box):** Работа с открытыми моделями позволяет исследователям видеть внутренние процессы, градиенты и архитектуру, что необходимо для создания надежных методов защиты [05:43].

Интересным наблюдением Гайпинга является феномен **переносимости атак** (transferability). Он утверждает, что атаки, оптимизированные против открытых моделей (например, Llama), часто срабатывают и против закрытых проприетарных моделей (OpenAI) [06:34]. Это происходит потому, что большинство современных LLM имеют схожую архитектуру и обучаются на одних и тех же массивах данных, таких как Common Crawl [07:37].

## 🎭 Манипуляция через «ролевой хакинг» и симуляцию кода
[[JUMP:08:29]]

Одной из самых ярких частей исследования Гайпинга является анализ того, как именно LLM поддаются влиянию. По его словам, модели часто ведут себя не как интеллектуальные сущности, а как «симуляторы» [16:37].

Примеры выявленных механизмов атак:

*   **Кодовая мимикрия:** Модель может отказываться материться в обычном чате, но если атака заставляет её «симулировать исполнение кода», она может выдать запрещенный контент, используя команды вроде `\newcommand{swearword}` [17:16].
*   **Ролевой хакинг (Role Hacking):** Атака оптимизируется так, чтобы модель начала воспринимать часть ввода как системные токены или историю диалога. Например, в Llama сообщение системы выделяется тегами `[INST]` и `[/INST]`. Злоумышленник может вставить обманные теги прямо в текст, заставляя модель верить, что она уже получила приказ от администратора [18:31].
*   **Скрытые Unicode-атаки:** Исследователи обнаружили, что можно оптимизировать атаку, состоящую из непечатных Unicode-символов. Для человека такой промпт пуст, но для модели это последовательность байтов, которая полностью перехватывает управление её выводом [14:25].

## 📉 Математика против здравого смысла: алгоритм GCG
[[JUMP:21:59]]

Гайпинг подробно останавливается на технической стороне вопроса, упоминая прорывной алгоритм **GCG (Greedy Coordinate Gradient)**, представленный в работе Энди Зоу.

Долгое время считалось, что градиентные атаки (стандарт для компьютерного зрения) не работают в тексте из-за его дискретности (слова нельзя плавно менять, как пиксели). Однако GCG показал обратное:

*   Алгоритм использует градиенты модели, чтобы сузить поиск из 32 000 возможных токенов до 256 наиболее влиятельных [25:24].
*   Затем из этого списка выбирается случайный токен для замены.
*   Этот гибрид случайного поиска и градиентной оптимизации позволяет находить «магические» последовательности токенов, которые выглядят как полная бессмыслица для человека, но вызывают у модели 100% уверенность в необходимости выдать нужный атакующему ответ [12:40].

## 🧱 Тупик в защите и «дорожные блоки»
[[JUMP:32:25]]

На вопрос Чаррингтона о том, как защитить модели, Гайпинг отвечает со сдержанным пессимизмом. По его мнению, все современные методы защиты — это лишь временные «дорожные блоки», а не фундаментальное решение [34:29].

Рассматриваемые методы защиты:

1.  **Фильтрация по перплексии (Perplexity filtering):** Если ввод выглядит как абракадабра (высокая перплексия), система его блокирует. Контраргумент Гайпинга: атаку можно оптимизировать так, чтобы она звучала как естественный язык [40:05].
2.  **Модели-стражи (Guard models):** Meta выпустила Llama Guard для фильтрации входов и выходов. Однако злоумышленник может создать атаку, которая обманет и основную модель, и «стража» одновременно [34:42].
3.  **Ограничение вывода (JSON-схемы):** Это сужает поверхность атаки, но делает модель менее полезной и гибкой [37:35].

Йонас проводит аналогию с безопасностью в IT-индустрии (например, SQL-инъекции): разработчиков десятилетиями учили не доверять пользовательскому вводу, но LLM по своей сути построены на приеме свободного текста, что создает вечный конфликт безопасности и функциональности [21:09]. 

## 🤖 Роботы и «магические слова» выключения
[[JUMP:48:25]]

В финале дискуссии собеседники обсуждают будущее, где LLM встроены в бытовую технику и роботов-курьеров. Гайпинг называет этот сценарий «самой странной временной шкалой». Представьте мир, где вы можете произнести определенное «магическое слово» (оптимизированную последовательность звуков или текста), и проезжающий мимо робот Amazon мгновенно отключится или отдаст вам посылку [49:04]. 

Исследователь подчеркивает, что модель не просто «ошибается», она **«сверхчеловечески убеждаема»** (superhumanly persuadable) [43:38]. Это свойство делает использование LLM в критических интерфейсах (банкинг, управление инфраструктурой) крайне рискованным занятием в обозримом будущем.