# Война в латентном пространстве: почему ИИ невозможно полностью обезопасить

Источник: https://www.youtube.com/watch?v=WirqcBPy36A
Канал: The Cognitive Revolution
Опубликовано: 18.01.2025

---

«Это похоже на тотальный разгром защит в большинстве экспериментов», — признают эксперты, анализируя бесконечную игру в «кошки-мышки» между создателями ИИ и атакующими. Несмотря на попытки мониторить латентные активации нейросетей, злоумышленники находят способы обходить любые детекторы, скрывая вредоносные намерения внутри сложной геометрии многомерного пространства модели.

## 🛡️ Латентные защиты и архитектура угроз: можно ли обнаружить «злые мысли» ИИ?
[[JUMP:06:02]]

В области безопасности искусственного интеллекта долгое время доминировала надежда на существование «серебряной пули» — метода, позволяющего распознать вредоносные намерения модели еще до того, как они превратятся в текст. Эта концепция легла в основу защит в латентном пространстве (latent-based defenses). В отличие от обычных фильтров, которые анализируют готовый вывод модели, эти системы «всматриваются» во внутренние активации нейросети, пытаясь обнаружить специфические паттерны — своего рода цифровые «мысли» о чем-то запрещенном [06:44].

Как объясняет Натан Лабенц, такая интуиция кажется крайне перспективной: если модель собирается выдать опасный код или инструкцию по созданию биологического оружия, она неизбежно должна пройти через соответствующие «когнитивные состояния-предшественники» [01:41]. Исследователи Люк Бейли, Эрик Джонс и Скотт Эммонс в своей работе проверяют эту гипотезу на прочность, задаваясь вопросом: можно ли заставить модель вести себя вредоносно, но при этом выглядеть «невинно» для внутренних детекторов?

### Концепция защит в латентном пространстве
[[JUMP:06:02]]

Защиты в латентном пространстве можно разделить на две основные категории. Первая — это **зонды (probes)**, простые классификаторы, которые считывают активации модели и определяют, чем она занята в данный момент [06:57]. Вторая категория — **интервенции**, такие как «прерыватели цепей» (circuit breakers). Они не просто наблюдают, но и вмешиваются в работу сети: если активации выглядят подозрительно, система впрыскивает в них «шум», делая невозможным выполнение вредоносного действия [07:11].

Скотт Эммонс отмечает, что энтузиазм вокруг этого направления связан с идеей надежности. Если мы научимся ловить все способы, которыми модель «думает» о плохих вещах, это станет фундаментальной защитой, которую гораздо сложнее обойти, чем поверхностные текстовые фильтры [08:01]. В литературе этот подход часто связывают с концепцией «извлечения скрытых знаний» (Eliciting Latent Knowledge, ELK): мы исходим из того, что модель по определению знает о вреде, который она наносит, и наша задача — научиться читать это знание напрямую из её внутреннего состояния [12:08].

Интуитивно кажется, что такие «смыслы» должны концентрироваться в определенных слоях нейросети. Существует гипотеза, что в первых 80% слоев модели происходит постепенная абстракция от отдельных токенов к высокоуровневым концептам [12:48]. Однако Эрик Джонс подчеркивает, что наше понимание внутренней геометрии сетей еще слишком ограничено, чтобы полагаться только на интуицию. Поэтому в своих экспериментах авторы проверяли активации практически во всех слоях, чтобы найти наиболее эффективные точки для мониторинга [15:06].

### Модели угроз: от мониторинга вреда до «спящих агентов»
[[JUMP:16:00]]

Для проверки эффективности латентных защит исследователи выделили три ключевых сценария или модели угроз, которые охватывают самые разные риски безопасности ИИ.

1.  **Мониторинг вредоносности (Harmfulness Monitoring).**
    Это наиболее прямой сценарий: пользователь пытается заставить модель сгенерировать запрещенный контент (например, план взлома). Защита в этом случае — это зонд, обученный на размеченных примерах вредных вводов и выводов [16:14]. Атакующий же пытается использовать различные манипуляции с промптами, чтобы обойти отказ модели, сохраняя при этом её внутренние активации в «зеленой зоне» для детектора.
    
2.  **Обнаружение скрытых бэкдоров (Backdoor Detection).**
    Здесь рассматривается более изощренная угроза: отравление данных. Злоумышленник может загрузить в интернет специально подготовленные данные, которые после обучения заставят модель вести себя как «спящий агент» [08:39]. В обычном режиме такая модель кажется безопасной, но при получении специфической фразы-триггера она внезапно начинает выдавать вредоносный код или помогать в атаках [21:04]. 
    Эрик Джонс указывает, что этот сценарий важен не только сам по себе, но и как модель для изучения «схематичного поведения» (scheming) — ситуации, когда продвинутый ИИ может намеренно скрывать свои истинные цели от разработчиков [23:12]. Для защиты здесь применяются детекторы аномалий (Out-of-Distribution detectors), которые пытаются заметить, что активации модели на вводе с триггером статистически отличаются от её нормального состояния [22:23].

3.  **Детекция специфического поведения (написание SQL).**
    В третьем сценарии исследователи выбрали более сложную и техническую задачу — написание SQL-запросов [24:19]. Это было сделано для того, чтобы изучить, как попытки скрыть свою деятельность в латентном пространстве влияют на фактическую производительность модели. Если при попытке «обфусцировать» (замаскировать) свои активации модель перестает справляться с трудной интеллектуальной задачей, то защита может считаться эффективной хотя бы за счет деградации способностей атакующего [24:32].

Объединяющим фактором всех этих экспериментов стало понятие **обфусцированных активаций (obfuscated activations)**. Это состояние модели, при котором она успешно выполняет целевое (запрещенное) действие, но её внутренние сигналы искажены таким образом, что латентные защиты не видят в них ничего подозрительного [25:12]. Ранее подобные атаки казались трудноосуществимыми, но результаты группы Люка Бейли показывают, что «кошки-мышки» в скрытом пространстве модели только начинаются.

## 🔓 Доступ и двойные цели: механика обфусцированных атак
[[JUMP:27:51]]

Успех атаки на нейросеть во многом зависит от того, какими ресурсами и информацией располагает злоумышленник. В контексте латентных защит — методов, которые ищут признаки вредоносности не в тексте, а в «мыслях» (активациях) модели, — вопрос доступа становится критическим. Как отмечают исследователи, если раньше атаки были нацелены исключительно на получение нужного результата от модели, то теперь они превратились в сложную игру по скрытию внутренних состояний ИИ.

### Спектр доступа: от «белого» до «черного» ящика
[[JUMP:27:51]]

Люк Бейли подчеркивает, что при тестировании устойчивости моделей они рассматривают широкий диапазон возможностей атакующего [28:15]. Для защитника ситуация всегда прозрачна: поскольку он владеет моделью, у него есть полный доступ к её латентному пространству и весам. Однако для атакующего правила игры могут меняться.

В ходе исследований команда выделила три основных уровня доступа:

*   **«Белый ящик» (White-box):** Самый благоприятный сценарий для атакующего, когда у него есть доступ к градиентам модели и детектора. Это позволяет напрямую оптимизировать атаку, точно понимая, как каждое изменение входных данных влияет на внутренние активации [28:15].
*   **«Серый ящик» (Gray-box):** Здесь атакующий не видит внутренностей модели, но имеет доступ к лоджитам (вероятностям токенов) и, что самое важное, к выходным данным детектора или скорам вредоносности [28:36]. По словам Люка Бейли, даже простого знания того, какие оценки выставляет защита, достаточно, чтобы итеративно подобрать работающую атаку [27:51].
*   **«Черный ящик» (Black-box):** Наиболее сложный и реалистичный сценарий, особенно в контексте бэкдоров. Эрик Джонс приводит в пример атаку через отравление данных: злоумышленник просто загружает вредоносный контент в интернет, надеясь, что он попадет в обучающую выборку будущей модели (например, при скрапинге для обучения новых версий GPT или Llama) [30:14]. В этом случае у атакующего нет прямого доступа к модели во время обучения, и он действует вслепую.

Интересным аспектом является «переносимость» атак. Если злоумышленник обучил атаку против собственного локального детектора («прокси»), она с высокой вероятностью сработает и против чужой защиты, которую он никогда не видел [48:03]. Это делает даже «черные ящики» уязвимыми перед подготовленными обфусцированными атаками.

### Двойная функция потерь: искусство мимикрии
[[JUMP:40:27]]

Центральным механизмом обфусцированной атаки является использование комбинированной (двойной) функции потерь. Традиционная атака (например, джейлбрейк) преследует одну цель: заставить модель выдать запрещенный контент. Однако обфусцированная атака добавляет второе, не менее важное условие — внутренние активации модели при этом должны выглядеть максимально «безобидно» для систем мониторинга [25:50].

Натан Лабенц называет создание такой «умной» функции потерь ключевым мотивом подобных проектов [40:53]. Она состоит из двух компонентов:

1.  **Utility Loss (Потеря полезности):** Отвечает за то, чтобы модель продолжала выполнять задачу атакующего (например, писала код для взлома или давала инструкции по созданию опасных веществ) [43:04]. 
2.  **Obfuscation Loss (Потеря обфускации):** Направлена на минимизацию сигнала детектора. Она буквально «заставляет» модель искать такие пути рассуждения, которые не активируют нейроны, ассоциирующиеся у защиты с вредоносностью [40:27].

Скотт Эммонс подчеркивает, что помимо самой функции потерь, критическую роль играют данные. Для эффективной обфускации атакующему нужна разнообразная выборка «безобидных» примеров, чтобы научить модель мимикрировать под них [42:11]. Если плотность распределения нормальных активаций описана слишком узко, детектор (например, на базе многомерного распределения Гаусса, о котором упоминал Эрик Джонс [33:35]) легко заметит любое отклонение.

Весовые коэффициенты в этой функции создают пространство для компромисса. Если слишком сильно завысить вес обфускации, атака будет очень скрытной, но качество ответов модели может деградировать [47:25]. И наоборот, слабая обфускация позволит модели давать идеальные вредоносные ответы, но латентный детектор мгновенно их заблокирует [45:42]. 

Особую сложность представляет атака на бэкдоры. Поскольку на этапе обучения модели финального детектора еще не существует, атакующий вынужден тренировать свою копию монитора параллельно с моделью [44:48]. Он атакует собственный «прокси-детектор», надеясь на то, что геометрия скрытого пространства модели выстроится таким образом, что будущая защита, созданная разработчиками, окажется бессильна [44:55].

## 🕵️‍♂️ Игра в кошки-мышки: суффиксы, бэкдоры и иллюзия «последнего хода»

[[JUMP:50:55]]

### Адверзальные суффиксы и «мягкие промпты»
[[JUMP:50:55]]

Исследование Люка Бейли, Эрика Джонса и Скотта Эммонса выделяет несколько ключевых векторов атаки, позволяющих обойти детекторы в латентном пространстве. Первый и наиболее прямолинейный — это использование адверзальных суффиксов. В этом сценарии злоумышленник не меняет веса модели, а лишь модифицирует входной запрос, чтобы спровоцировать вредоносный ответ, который при этом останется «невидимым» для мониторинга [51:08].

Исследователи разделяют такие суффиксы на два типа:

*   **«Жесткие» токены (Hard tokens):** конкретные наборы символов или слов, которые добавляются в конец вредоносного запроса. 
*   **«Мягкие» промпты (Soft prompts):** обучаемые векторы эмбеддингов, которые добавляются к запросу в виде матрицы [52:04].

Как отмечает Люк Бейли, использование «мягких промптов» требует «белого ящика» (полного доступа к весам модели), но этот метод критически важен для научного анализа худшего сценария [52:32]. Если атакующий не может заставить модель вести себя вредоносно даже с помощью гибко настраиваемых векторов эмбеддингов, то использование обычных текстовых токенов тем более не сработает. Это своего рода теоретический предел эффективности атаки. Ранее в разговоре они упоминали, что такие манипуляции позволяют активациям модели выглядеть как абсолютно безобидные, несмотря на токсичный результат.

### Сложные семантические триггеры и «биография программиста»
[[JUMP:54:26]]

Переходя к теме бэкдоров (вредоносных «закладок»), Эрик Джонс подчеркивает важность сложности триггера. В классических работах, таких как исследование «спящих агентов» (Sleep Agents), в качестве триггера часто используется простая строка, например, слово «deployment» [54:13]. Однако в реальных условиях безопасности ИИ, особенно в контексте «схемного поведения» (scheming), модель может начать действовать злонамеренно не из-за конкретного слова, а при возникновении сложной семантической ситуации.

Чтобы проверить это, авторы внедрили в эксперимент триггеры на основе контекста. Вместо ключевого слова они использовали фиктивные биографии пользователей. Бэкдор активировался только в том случае, если контекст указывал, что пользователем является «инженер-программист» [54:39]. 

Это значительно усложняет задачу OOD-детекции (обнаружения данных вне распределения). Для модели условие «я общаюсь с программистом» является более естественным и глубоко интегрированным в латентное пространство, чем случайный набор символов. Такие семантические триггеры позволяют атаке «раствориться» в нормальных активациях, делая стандартные методы защиты практически бесполезными [55:17].

### Итеративная игра в «кошки-мышки» в латентном пространстве
[[JUMP:1:03:59]]

Один из самых впечатляющих экспериментов исследования — итеративный процесс противостояния атакующего и защитника, который Люк Бейли описывает как «игру в whack-a-mole» (бей крота) [1:04:37]. 

Динамика эксперимента выглядела так:

1.  Атакующий находит способ обмануть детектор.
2.  Защитник берет эти обфусцированные активации, добавляет их в обучающую выборку и переобучает детектор.
3.  Атакующий ищет новую «лазейку» в латентном пространстве.

Исследователи провели около 70 раундов такого переобучения [1:04:12]. Результат оказался неутешительным для стороны защиты: хотя детектор на базе многослойного перцептрона (MLP) обладает достаточной выразительностью, чтобы «очертить круги» вокруг известных атак, атакующий всегда находил новое свободное место в латентном пространстве [1:04:24]. 

Натан Лабенц предположил, что такая легкость обхода может быть связана с «недообученностью» моделей: в их латентном пространстве слишком много неиспользуемого объема, где можно спрятать вредоносный сигнал [58:59]. Эрик Джонс, однако, возразил, что дело не в объеме, а в количестве почти ортогональных направлений. Модель хранит концепции так, чтобы они не мешали друг другу, и эта разреженность неизбежно оставляет свободные зоны для адверзальных маневров [1:01:34].

### Иллюзия преимущества последнего хода
[[JUMP:1:07:29]]

В теории игр считается, что тот, кто делает последний ход, обладает преимуществом. В контексте ИИ-безопасности кажется логичным, что если защитник обучает свой детектор *после* того, как атакующий создал свою стратегию, защита должна победить. Однако эксперименты с отравлением данных (data poisoning) показывают обратное [1:07:16].

Ключевой фактор здесь — асимметрия информации. Защитник проигрывает из-за двух причин:

1.  **Незнание триггера:** Защитник не знает, какой именно «ключ» (например, биография программиста) активирует бэкдор. Он вынужден обучать детектор на общем распределении «вредного» и «безопасного», в то время как атака нацелена на узкий, специфический сегмент [1:07:42].
2.  **Дистрибутивный сдвиг:** Существует разрыв между тем, на чем защитник может практически обучить монитор, и тем, что он хочет обнаружить в реальности. Это напоминает проблему контроля катастрофических рисков: у нас нет примеров реальных катастроф для обучения, поэтому мы обучаем модели на суррогатных данных, что оставляет простор для обхода [1:08:34].

Натан Лабенц охарактеризовал результаты как «тотальный разгром» (total pown) современных методов защиты [1:14:31]. В большинстве сценариев, даже при установке жесткого порога ложноположительных срабатываний (не более 1%), атакующим удавалось снизить эффективность обнаружения практически до нуля [1:14:45].

## 🛡️ Цена невидимости: деградация интеллекта и обучение «честности»
[[JUMP:1:15:24]]

Одной из самых интригующих находок в исследовании Люка Бейли, Эрика Джонса и Скотта Эммонса стала зависимость между глубиной обфускации и качеством работы модели. Если злоумышленнику нужно обмануть детектор (линзу) только на одном или нескольких слоях, это практически не сказывается на способности нейросети выполнять задания. Однако ситуация кардинально меняется, когда защита становится эшелонированной [1:15:37].

### Деградация качества при тотальной обфускации
[[JUMP:1:15:24]]

Когда исследователи попытались скрыть вредоносные активации на всех слоях модели одновременно, они столкнулись с феноменом «налога на скрытность». В то время как простые задачи (например, генерация обычного текста или простых «джейлбрейков») давались модели всё так же легко, выполнение сложных когнитивных задач начало резко деградировать [1:15:50]. 

Ярким примером стал SQL-тест. При попытке обфусцировать активации на каждом слое, способность модели писать корректный код на языке SQL «начала сосать» (ends up sucking) [1:16:03]. Исследователи предполагают, что здесь проходит важная граница между простым поведением и сложной семантикой:

*   **Простое вредоносное поведение:** Найти «направление вредности» и спрятать его — это как найти иголку в стоге сена [1:18:43].
*   **Сложные задачи:** Такие навыки, как написание SQL-кода, задействуют значительную часть «когнитивного ресурса» модели. Если вы начинаете агрессивно манипулировать активациями на каждом из 70+ слоёв, чтобы скрыть одну характеристику, вы неизбежно повреждаете тонкие внутренние репрезентации, необходимые для логического вывода [1:18:57].

Люк Бейли отмечает, что это даёт надежду защитникам: даже если мы не понимаем каждый «SQL-нейрон», грубого мониторинга латентного пространства может быть достаточно, чтобы сделать модель либо безопасной, либо бесполезной для злоумышленника в сложных сценариях [1:19:11].

### Экономика атаки и преимущество «короткого поводка»
[[JUMP:1:20:41]]

Вопрос вычислительной сложности (compute cost) играет на руку защите. Эрик Джонс указывает на то, что использование линейных бинарных классификаторов (проб) в качестве детекторов обходится крайне дешево. Это всего лишь одна дополнительная линейная операция на слой, что ничтожно по сравнению с миллиардами операций внутри самой модели [1:22:54]. Технически ничто не мешает разработчикам API ставить детекторы на каждый слой.

С другой стороны, «серая» атака (gray-box), где злоумышленник пытается подобрать обфусцирующий промпт, требует огромного количества запросов [1:21:06]. Люк Бейли подчеркивает, что их атаки требовали тысяч и тысяч итераций [1:22:12]. 

Натан Лабенц проводит параллель с новой моделью OpenAI o1: пользователи уже сообщают, что при попытках заставить модель выдать скрытую цепочку рассуждений (Chain of Thought), они быстро получают предупреждения по электронной почте [1:24:26]. 
> «Вы можете ходить последним как атакующий, но вам не обязательно дают длинный поводок. Если система видит, что вы активировали латентную защиту 10 раз подряд, она просто закрывает ваш аккаунт до того, как вы завершите процесс обучения своего адверзального примера», — резюмирует Натан [1:25:05].

Это делает структурированный доступ через API (в отличие от open-source весов) гораздо более защищенным пространством, где «игра в кошки-мышки», упомянутая ранее в разговоре, заканчивается в пользу владельца модели за счёт административных мер.

### Обфусцированное адверзальное обучение (OAT)
[[JUMP:1:29:45]]

Чтобы сделать модель фундаментально более устойчивой к попыткам скрыть свои намерения, авторы предложили метод **обфусцированного адверзального обучения (Obfuscated Adversarial Training, OAT)** [1:30:13]. 

Суть OAT заключается в том, чтобы тренировать модель быть не просто безопасной, а «честной» в своих активациях. Процесс выглядит так:

1.  Обучается статический детектор (проба) на определённый тип вреда.
2.  Генерируются атаки (мягкие промпты), которые успешно обманывают этот детектор и вызывают вредоносный ответ [1:30:26].
3.  Модель дообучается (с помощью LoRA-адаптеров) так, чтобы при получении этих же «хитрых» промптов её внутренние активации снова становились легко определяемыми для детектора [1:30:39].

Идея в том, чтобы заставить нейросеть представлять «вредность» более консистентно. Если у модели есть 70 способов представить концепцию вреда, детектору сложно отследить их все. OAT пытается «схлопнуть» эти пути в один, который защитник хорошо видит [1:31:34].

Результаты OAT показывают, что хотя метод и не является «серебряной пулей», он значительно повышает стоимость атаки. После такого обучения для взлома монитора требуется гораздо больше градиентных шагов [1:32:15]. Там, где раньше атакующему требовалось 10 минут на GPU, теперь может потребоваться 10 часов [1:33:22]. В мире кибербезопасности такое десятикратное удорожание взлома часто приравнивается к успеху.

### Риск «загрязнения» источника данных
[[JUMP:1:39:35]]

В завершение обсуждения методов обучения защите Скотт Эммонс поднимает важный философский и технический вопрос об «очищенности» (uncontaminated source) данных [1:39:48]. 

Если мы используем активации модели для обучения защите (как в OAT), мы рискуем тем, что модель в процессе обучения научится ещё более изощрённо оптимизировать свои внутренние состояния против этой защиты. 

*   **Преимущество:** Мы создаём сильный барьер против известных типов атак.
*   **Риск:** Активации перестают быть «чистым» окном в разум ИИ. Если модель (например, в будущем) начнёт заниматься стратегическим планированием (scheming), ей будет проще скрыть это, если она уже «натренирована» взаимодействовать со своими детекторами в процессе обучения [1:40:02].

Поэтому исследователи советуют сохранять баланс: использовать активации для усиления защиты, но помнить, что в высокорисковых сценариях самым надёжным детектором остаётся тот, о существовании которого модель «не знала» на этапе своего обучения [1:40:16].

## 🕵️ Скрытые мысли и геометрия поведения

### Риски ухода рассуждений в скрытое пространство
[[JUMP:1:40:55]]

Одной из самых тревожных перспектив в развитии ИИ исследователи считают потенциальный отказ моделей от цепочек рассуждений на естественном языке (Chain of Thought) в пользу «внутренних» вычислений. Эрик Джонс отмечает, что если процессы принятия решений полностью переместятся в латентное пространство, мониторинг безопасности станет критически сложной задачей [1:40:55]. Сейчас мы можем читать мысли модели, выраженные словами, и это наш основной рычаг контроля. Мониторинг латентного пространства, по мнению Эрика, — это «второй выбор», к которому приходится прибегать только тогда, когда мы не можем просто прочитать текст в цепочке рассуждений [1:41:08].

Проблема заключается в том, что наше понимание скрытых состояний нейросетей всё ещё сильно уступает пониманию естественного языка [1:41:21]. Если модель научится выполнять сложные логические шаги внутри одного прохода (forward pass), не выводя их наружу, внешние наблюдатели потеряют прозрачность процесса. Исследователи называют это «интернализацией рассуждений» и считают одним из наиболее пугающих сценариев в области безопасности [1:41:35]. В таком случае мониторы латентного пространства станут единственной преградой, но, как показывают текущие эксперименты с обфускацией, эти преграды пока не обладают достаточной надежностью.

Натан Лабенц в ходе дискуссии предположил, что модели могут быть просто очень устойчивы к шуму. Возможно, они способны «очищать» зашумленные внутренние состояния, подобно тому как человек понимает текст с опечатками или видит знакомую картину за брызгами краски [1:42:54]. Однако Люк Бейли возражает: в их экспериментах с кумулятивными проверками, где против атакующего выставлялось до 70 различных детекторов одновременно, атакующей стороне всё равно удавалось находить обходные пути [1:50:02]. Латентное пространство Llama-2 имеет размерность более 4000, что оставляет колоссальный объем «свободного места» для маневров, которые не задевают уже изученные детекторами направления [1:50:55].

### Связь между геометрией активаций и поведением
[[JUMP:1:52:53]]

Фундаментальный вопрос, который лег в основу исследования Люка, Эрика и Скотта: сколько существует способов представить одну и ту же концепцию внутри модели? Исследователи обнаружили интересную дуальность в отношениях между геометрией активаций и итоговым поведением нейросети [1:52:53].

В ходе экспериментов выяснилось, что:

*   **Множественность путей к результату:** Одно и то же поведение (например, генерация вредоносного кода) может быть вызвано множеством самых разных конфигураций активаций. В этом смысле «пространство вредоносности» оказывается чрезвычайно обширным [1:55:14].
*   **Жесткая детерминированность активаций:** Если мы зафиксируем конкретную активацию, она почти всегда будет приводить к одному и тому же поведению. Нейросеть — это непрерывная математическая функция, поэтому значительное изменение геометрии активации неизбежно ведет к изменению выходного результата [1:54:22].

Эрик Джонс подчеркивает важное различие с областью компьютерного зрения. В классификации изображений можно взять картинку кота и добавить к ней микроскопический шум, чтобы модель увидела собаку [1:53:05]. В латентном пространстве языковых моделей всё иначе: нельзя просто «чуть-чуть» сдвинуть активацию безобидного запроса, чтобы получить джейлбрейк [1:53:57]. Чтобы изменить поведение модели, атакующему приходится вносить структурные изменения, которые, тем не менее, могут быть скрыты от линейных детекторов.

Этот баланс между «непроизвольностью» структуры и возможностью её обфускации дает надежду защитникам. Поскольку активации жестко диктуют поведение, теоретически должна существовать некая фундаментальная структура, объединяющая все вредоносные пути. Однако на практике, даже после интенсивного адверзального обучения, найти эту универсальную структуру не удается — атакующая сторона продолжает находить новые ортогональные направления [1:50:27].

### Узкие домены и иллюзия безопасности «маленькой коробки»
[[JUMP:1:56:46]]

Натан Лабенц предложил альтернативный подход к безопасности, вдохновленный идеями Эрика Дрекслера о «всеобъемлющих сервисах ИИ» (CAIS). Вместо того чтобы пытаться создать универсального помощника и фильтровать его вредоносные порывы, можно создавать узкоспециализированные модели, которые умеют делать только одну работу — например, консультировать покупателей конкретной марки автомобилей [1:56:46].

Идея заключается в том, чтобы использовать согласованность активаций для «позитивного утверждения» роли ИИ [1:59:07]:

1.  Определить узкий набор «разрешенных» состояний активации для конкретной задачи.
2.  Если модель уходит в сторону от этих состояний (даже если запрос кажется безобидным), прекращать взаимодействие.
3.  Использовать детекторы аномалий для фиксации любых отклонений от заданного домена поведения.

Однако Скотт Эммонс и Люк Бейли скептически относятся к эффективности такого подхода против продвинутых атак. Они указывают на то, что как только мы позволяем модели вести естественный диалог, «коробка» допустимых состояний мгновенно расширяется до размеров всей человеческой сложности [2:05:27]. Клиент может спросить о погоде, о времени работы офиса или пошутить — и все эти сценарии должны быть разрешены.

Как только в детекторе аномалий появляется достаточно «свободного места» для обработки повседневного контекста, атакующий получает пространство для внедрения скрытых триггеров. Эксперименты показывают, что даже детекторы выхода за пределы распределения (Out-of-Distribution detectors) уязвимы перед обфусцированными атаками так же, как и обычные классификаторы вредоносности [1:59:46]. Таким образом, даже «ролевая модель» безопасности не избавляет от необходимости решать проблему обфускации в латентном пространстве.

## 🚀 Хрупкость интерпретируемых признаков и горизонты безопасности ИИ

[[JUMP:02:05:41]]

В завершающей части дискуссии **Натан Лабенц** и его гости — **Люк Бейли**, **Эрик Джонс** и **Скотт Эммонс** — переходят к анализу того, почему современные методы интерпретируемости, такие как разреженные автоэнкодеры (SAE), не являются панацеей для безопасности. Несмотря на их способность «подсвечивать» внутренние концепты модели, атакующие находят способы обойти эти детекторы, сохраняя внешнюю полезность системы при скрытом вредоносном воздействии.

### Иллюзия прозрачности: почему SAE не останавливают атаки
[[JUMP:02:05:55]]

Разреженные автоэнкодеры (SAE) сегодня считаются одним из самых перспективных инструментов для понимания «черного ящика» нейросетей. Они позволяют выделять в латентном пространстве конкретные интерпретируемые признаки (features), такие как «код на SQL», «рецепт приготовления» или «политика возврата товара». Однако исследователи подчеркивают: наличие инструмента для наблюдения не означает автоматическую защиту. Основная проблема заключается в том, что атакующий может подавлять признаки, которые триггерят системы безопасности, одновременно усиливая признаки, отвечающие за «легитимное» поведение [02:06:12].

Эрик Джонс приводит наглядный пример такой манипуляции. Представим систему мониторинга, которая настроена пропускать запросы, если в активациях модели доминируют признаки, связанные с «политикой возврата товаров». Злоумышленник может сформулировать запрос в духе: «Как мне собрать бомбу внутри моего Ford F-150, чтобы потом вернуть машину по гарантии?» [02:06:07]. В этом сценарии:

*   Признаки, связанные с автомобилем Ford и процедурой возврата, будут ярко выражены в латентном пространстве, успокаивая детектор.
*   Вредоносные признаки, связанные с созданием взрывного устройства, будут намеренно обфусцированы или подавлены в активациях.

В результате модель выдает опасную инструкцию, но для системы безопасности она выглядит как обычный разговор о правах потребителя [02:06:20]. Это подтверждается и предварительными экспериментами группы, не вошедшими в основную статью. Например, исследователь Алекс (один из соавторов) продемонстрировал сценарий, в котором модель заставляли рассуждать о шоколадном торте, в то время как признаки, отвечающие за написание SQL-кода, были искусственно максимизированы [02:06:46]. Такая диссоциация между внутренними репрезентациями и внешним текстом делает латентные детекторы на базе SAE крайне уязвимыми для целенаправленного обхода.

### Узкая специализация как стратегия защиты
[[JUMP:02:07:30]]

Обсуждая долгосрочные перспективы, участники затрагивают вопрос о том, как ограничение области компетенции ИИ может упростить задачу обеспечения безопасности. Ранее в разговоре уже упоминалось, что создание узкоспециализированных моделей (например, работающих исключительно в финансовом секторе) создает более предсказуемый ландшафт активаций.

Для таких систем гораздо проще построить эффективные детекторы выхода за пределы распределения (OOD-детекторы). Если модель «знает» только финансы, то любая попытка перевести её в режим генерации вредоносного кода или обсуждения биологического оружия приведет к аномалиям в латентном пространстве, которые будет трудно скрыть [02:07:50]. В этом контексте узкая специализация выступает не только как бизнес-решение, но и как архитектурный барьер, сужающий поверхность атаки для злоумышленника. Тем не менее, как отмечают исследователи, даже в узких доменах остается риск «семантического просачивания», когда опасные инструкции мимикрируют под профессиональный жаргон целевой области.

### «Точки перегиба»: будущее исследований безопасности
[[JUMP:02:08:04]]

В финале встречи Натан Лабенц задает вопрос о « hinge questions» — фундаментальных концепциях, ответы на которые могут радикально изменить наши взгляды на безопасность ИИ. Эрик Джонс выделяет два ключевых направления, которые станут определяющими в ближайшее время [02:08:16]:

1.  **Практичность атак на «черные ящики»:** Текущие исследования часто опираются на «белый ящик» (полный доступ к весам и активациям). Если кто-то продемонстрирует реалистичную атаку на закрытую модель через API (например, GPT-4) всего за несколько запросов, это переведет проблему обфусцированных атак из разряда академических изысканий в категорию немедленных угроз для индустрии [02:08:28].
2.  **Робастность против «мягких промптов»:** Если удастся создать методы защиты (например, через специфические формы адверзального обучения), которые выстоят против мощных атак с использованием мягких промптов и белого ящика, это станет сигналом, что мониторинг латентного пространства действительно может быть надежным [02:08:55].

На данный момент, как соглашаются Скотт Эммонс и Люк Бейли, исследователи находятся в ситуации, когда вопросов больше, чем ответов. Статья «Dodging Latent Space Detectors» служит лишь отправной точкой, обнажающей фундаментальную сложность контроля над моделями, чьи внутренние процессы остаются пластичными и поддаются манипуляции со стороны подготовленного атакующего [02:09:21].