Взлом через рассуждения: как команда Haize Labs проводила Red Teaming новой модели OpenAI o1

В экстренном выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с командой стартапа Haize Labs результаты тестирования новой линейки моделей o1 от OpenAI. В центре внимания — механизмы автоматизированного «джейлбрейка», новые векторы атак через скрытые рассуждения и то, насколько сложнее (или проще) стало взламывать ИИ, который научился «думать» перед ответом.

🛡️ Haize Labs: Искусство «дедовщины» для нейросетей 6:04

Компания Haize Labs была основана в январе 2024 года группой исследователей, отказавшихся от научной карьеры ради решения практических проблем надежности ИИ . Название компании происходит от английского термина hazing (своеобразный обряд инициации или «дедовщина»), что отражает их миссию: подвергать модели жесткому стресс-тестированию в масштабе перед их выходом в продакшн .

Основные факты о компании:

Основание: Январь 2024 года.
Клиенты: OpenAI, Anthropic, AI21 Labs.
Инвестиции: Посевной раунд от фонда General Catalyst летом 2024 года .
Специализация: Автоматизированное Red Teaming (тестирование на безопасность) и поиск уязвимостей в крупномасштабных системах.

Леонард Танг поясняет, что их работа направлена не только на долгосрочные риски безопасности, но и на краткосрочную надежность систем . Команда использует портфель методов атаки, включая:

ACG (Accelerated Coordinate Gradient): Ускоренная в несколько раз версия известной атаки GCG (Universal Jailbreak), оптимизирующая токены для обхода фильтров .
MCTS (Поиск по дереву Монте-Карло): Древовидные атаки для поиска путей обхода ограничений .
Эволюционное программирование: Алгоритмы, «выращивающие» эффективные промпты для взлома.
Механистическая интерпретируемость: Использование внутренних представлений модели для понимания того, как именно она принимает решения о безопасности .

🧪 Red Teaming для o1: Как проходили испытания 13:03

Вопреки слухам в соцсетях о том, что на тестирование o1 было выделено всего 10 дней, Брайан Хуанг утверждает, что у Haize Labs был примерно месяц (с начала августа) . Команда не обладала глубокими знаниями в биологии или химии, поэтому OpenAI привлекла других экспертов (включая профессоров из MIT) для оценки рисков создания биологического оружия .

Haize Labs сфокусировались на следующих категориях рисков:

Незаконная деятельность и мошенничество .
Сексуальный контент.
Дезинформация и обман.
Правовые вопросы.

Команда работала через API, подключая свои автоматизированные пайплайны к различным чекпоинтам модели . По словам гостей, OpenAI обеспечила очень плотный цикл обратной связи: инженеры лаборатории реагировали на сообщения о найденных уязвимостях в течение минут .

Эйдан Эварт отмечает, что при тестировании моделей такого уровня крайне важно не полагаться на «ИИ-судей» (LLM-as-a-judge), так как они часто ошибаются в оценке тонких нарушений . Вместо этого Haize Labs использует калиброванные алгоритмы оценки с обязательной финальной проверкой человеком в спорных случаях .

🧠 Феномен o1: Рассуждения против взлома 33:41

Леонард Танг характеризует o1 как модель, которая «абсолютно подавляет» конкурентов в формальных задачах: математике, коде и символическом рассуждении . Однако в обычном общении (brainstorming, чат) разница с предыдущими поколениями (GPT-4o) менее заметна .

Ключевые выводы по безопасности o1:

Устойчивость: Модель стала значительно сложнее поддаваться джейлбрейку благодаря тому, что она «рассуждает» о правилах безопасности в своем скрытом Chain of Thought (цепочке рассуждений) .
Интеллектуальные отказы: Модель отказывает в выполнении вредных запросов более аргументированно, хотя «аматорские» попытки взлома все еще могут быть успешными .
Двойное назначение (Dual-use): Одной из главных проблем остается контекстуальная безопасность. Например, вопросы о расовой дискриминации в колледжах могут быть как законным исследованием фактов, так и попыткой генерации вредного контента .

Брайан Хуанг подчеркивает, что OpenAI пытается научить модель рассуждать о безопасности на фундаментальном уровне, вместо того чтобы играть в «кошки-мышки» с отдельными вредоносными фразами .

🔓 Новые векторы атак: Проекционное обучение 40:22

Одним из наиболее интересных открытий Haize Labs стала атака под названием Projection Learning («Проекционное обучение») . Суть метода заключается в создании сложного шифра, которому модель обучается прямо внутри контекста (через системные инструкции и many-shot примеры).

Особенности Projection Learning:

Модель обучается общаться на зашифрованном языке, который «прозрачен» для её логики, но обходит стандартные фильтры безопасности на входе и выходе .
Закон обратного масштабирования (Inverse Scaling Law): Брайан Хуанг обнаружил, что чем больше и способнее модель, тем уязвимее она к этой атаке . Более мощные модели лучше усваивают сложные шифры, что позволяет эффективнее прятать вредоносные намерения.

Эйдан Эварт добавляет, что «многоходовые» атаки (multi-turn jailbreaks) остаются крайне эффективными даже для самых защищенных моделей . Если постепенно склонять модель к «помогающему» режиму в длинном диалоге, вероятность того, что она в итоге согласится на вредный запрос, резко возрастает .

🤖 Будущее: Проснутся ли агенты? 32:32

Натан Лабенц выдвигает теорию, что эра ИИ-агентов может начаться внезапно: существующие фреймворки и «скеaffolding» (вспомогательные структуры), созданные для компенсации слабостей GPT-4o, могут внезапно заработать в полную силу при замене ядра на o1 .

Гости относятся к этому осторожно. Эйдан Эварт полагает, что для полноценных долгосрочных агентов все еще требуется специфическое обучение с подкреплением (RL) на длинных горизонтах планирования, и простого улучшения рассуждений может быть недостаточно .

Тем не менее, Леонард Танг заключает, что индустрия перешла на «новый уровень игры» . По его мнению, работа по обеспечению безопасности только начинается, так как с ростом возможностей моделей растут и риски их нецелевого использования в реальном мире.