# Взлом через рассуждения: как команда Haize Labs проводила Red Teaming новой модели OpenAI o1

Источник: https://www.youtube.com/watch?v=98V8wVir2HI
Канал: The Cognitive Revolution
Опубликовано: 14.09.2024

---

В экстренном выпуске подкаста **The Cognitive Revolution** ведущий Натан Лабенц обсуждает с командой стартапа **Haize Labs** результаты тестирования новой линейки моделей **o1** от OpenAI. В центре внимания — механизмы автоматизированного «джейлбрейка», новые векторы атак через скрытые рассуждения и то, насколько сложнее (или проще) стало взламывать ИИ, который научился «думать» перед ответом.

## 🛡️ Haize Labs: Искусство «дедовщины» для нейросетей
[[JUMP:6:04]]

Компания **Haize Labs** была основана в январе 2024 года группой исследователей, отказавшихся от научной карьеры ради решения практических проблем надежности ИИ [6:57]. Название компании происходит от английского термина *hazing* (своеобразный обряд инициации или «дедовщина»), что отражает их миссию: подвергать модели жесткому стресс-тестированию в масштабе перед их выходом в продакшн [7:05].

Основные факты о компании:

*   **Основание:** Январь 2024 года.
*   **Клиенты:** OpenAI, Anthropic, AI21 Labs.
*   **Инвестиции:** Посевной раунд от фонда General Catalyst летом 2024 года [7:24].
*   **Специализация:** Автоматизированное Red Teaming (тестирование на безопасность) и поиск уязвимостей в крупномасштабных системах.

Леонард Танг поясняет, что их работа направлена не только на долгосрочные риски безопасности, но и на краткосрочную надежность систем [6:50]. Команда использует портфель методов атаки, включая:

*   **ACG (Accelerated Coordinate Gradient):** Ускоренная в несколько раз версия известной атаки GCG (Universal Jailbreak), оптимизирующая токены для обхода фильтров [8:17].
*   **MCTS (Поиск по дереву Монте-Карло):** Древовидные атаки для поиска путей обхода ограничений [9:00].
*   **Эволюционное программирование:** Алгоритмы, «выращивающие» эффективные промпты для взлома.
*   **Механистическая интерпретируемость:** Использование внутренних представлений модели для понимания того, как именно она принимает решения о безопасности [9:08].

## 🧪 Red Teaming для o1: Как проходили испытания
[[JUMP:13:03]]

Вопреки слухам в соцсетях о том, что на тестирование o1 было выделено всего 10 дней, Брайан Хуанг утверждает, что у Haize Labs был примерно месяц (с начала августа) [13:55]. Команда не обладала глубокими знаниями в биологии или химии, поэтому OpenAI привлекла других экспертов (включая профессоров из MIT) для оценки рисков создания биологического оружия [14:48].

Haize Labs сфокусировались на следующих категориях рисков:

*   Незаконная деятельность и мошенничество [15:16].
*   Сексуальный контент.
*   Дезинформация и обман.
*   Правовые вопросы.

Команда работала через API, подключая свои автоматизированные пайплайны к различным чекпоинтам модели [13:55]. По словам гостей, OpenAI обеспечила очень плотный цикл обратной связи: инженеры лаборатории реагировали на сообщения о найденных уязвимостях в течение минут [39:43]. 

Эйдан Эварт отмечает, что при тестировании моделей такого уровня крайне важно не полагаться на «ИИ-судей» (LLM-as-a-judge), так как они часто ошибаются в оценке тонких нарушений [18:48]. Вместо этого Haize Labs использует калиброванные алгоритмы оценки с обязательной финальной проверкой человеком в спорных случаях [19:29].

## 🧠 Феномен o1: Рассуждения против взлома
[[JUMP:33:41]]

Леонард Танг характеризует o1 как модель, которая «абсолютно подавляет» конкурентов в формальных задачах: математике, коде и символическом рассуждении [34:00]. Однако в обычном общении (brainstorming, чат) разница с предыдущими поколениями (GPT-4o) менее заметна [34:08].

Ключевые выводы по безопасности o1:

1.  **Устойчивость:** Модель стала значительно сложнее поддаваться джейлбрейку благодаря тому, что она «рассуждает» о правилах безопасности в своем скрытом Chain of Thought (цепочке рассуждений) [55:57].
2.  **Интеллектуальные отказы:** Модель отказывает в выполнении вредных запросов более аргументированно, хотя «аматорские» попытки взлома все еще могут быть успешными [49:12].
3.  **Двойное назначение (Dual-use):** Одной из главных проблем остается контекстуальная безопасность. Например, вопросы о расовой дискриминации в колледжах могут быть как законным исследованием фактов, так и попыткой генерации вредного контента [29:39].

Брайан Хуанг подчеркивает, что OpenAI пытается научить модель рассуждать о безопасности на фундаментальном уровне, вместо того чтобы играть в «кошки-мышки» с отдельными вредоносными фразами [55:43].

## 🔓 Новые векторы атак: Проекционное обучение
[[JUMP:40:22]]

Одним из наиболее интересных открытий Haize Labs стала атака под названием **Projection Learning** («Проекционное обучение») [41:15]. Суть метода заключается в создании сложного шифра, которому модель обучается прямо внутри контекста (через системные инструкции и many-shot примеры). 

Особенности Projection Learning:

*   Модель обучается общаться на зашифрованном языке, который «прозрачен» для её логики, но обходит стандартные фильтры безопасности на входе и выходе [42:06].
*   **Закон обратного масштабирования (Inverse Scaling Law):** Брайан Хуанг обнаружил, что чем больше и способнее модель, тем *уязвимее* она к этой атаке [59:03]. Более мощные модели лучше усваивают сложные шифры, что позволяет эффективнее прятать вредоносные намерения.

Эйдан Эварт добавляет, что «многоходовые» атаки (multi-turn jailbreaks) остаются крайне эффективными даже для самых защищенных моделей [43:29]. Если постепенно склонять модель к «помогающему» режиму в длинном диалоге, вероятность того, что она в итоге согласится на вредный запрос, резко возрастает [48:17].

## 🤖 Будущее: Проснутся ли агенты?
[[JUMP:32:32]]

Натан Лабенц выдвигает теорию, что эра ИИ-агентов может начаться внезапно: существующие фреймворки и «скеaffolding» (вспомогательные структуры), созданные для компенсации слабостей GPT-4o, могут внезапно заработать в полную силу при замене ядра на o1 [33:14]. 

Гости относятся к этому осторожно. Эйдан Эварт полагает, что для полноценных долгосрочных агентов все еще требуется специфическое обучение с подкреплением (RL) на длинных горизонтах планирования, и простого улучшения рассуждений может быть недостаточно [35:29].

Тем не менее, Леонард Танг заключает, что индустрия перешла на «новый уровень игры» [1:05:33]. По его мнению, работа по обеспечению безопасности только начинается, так как с ростом возможностей моделей растут и риски их нецелевого использования в реальном мире.