В экстренном выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с командой стартапа Haize Labs результаты тестирования новой линейки моделей o1 от OpenAI. В центре внимания — механизмы автоматизированного «джейлбрейка», новые векторы атак через скрытые рассуждения и то, насколько сложнее (или проще) стало взламывать ИИ, который научился «думать» перед ответом.
🛡️ Haize Labs: Искусство «дедовщины» для нейросетей 6:04
Компания Haize Labs была основана в январе 2024 года группой исследователей, отказавшихся от научной карьеры ради решения практических проблем надежности ИИ . Название компании происходит от английского термина hazing (своеобразный обряд инициации или «дедовщина»), что отражает их миссию: подвергать модели жесткому стресс-тестированию в масштабе перед их выходом в продакшн .
Основные факты о компании:
- Основание: Январь 2024 года.
- Клиенты: OpenAI, Anthropic, AI21 Labs.
- Инвестиции: Посевной раунд от фонда General Catalyst летом 2024 года .
- Специализация: Автоматизированное Red Teaming (тестирование на безопасность) и поиск уязвимостей в крупномасштабных системах.
Леонард Танг поясняет, что их работа направлена не только на долгосрочные риски безопасности, но и на краткосрочную надежность систем . Команда использует портфель методов атаки, включая:
- ACG (Accelerated Coordinate Gradient): Ускоренная в несколько раз версия известной атаки GCG (Universal Jailbreak), оптимизирующая токены для обхода фильтров .
- MCTS (Поиск по дереву Монте-Карло): Древовидные атаки для поиска путей обхода ограничений .
- Эволюционное программирование: Алгоритмы, «выращивающие» эффективные промпты для взлома.
- Механистическая интерпретируемость: Использование внутренних представлений модели для понимания того, как именно она принимает решения о безопасности .
🧪 Red Teaming для o1: Как проходили испытания 13:03
Вопреки слухам в соцсетях о том, что на тестирование o1 было выделено всего 10 дней, Брайан Хуанг утверждает, что у Haize Labs был примерно месяц (с начала августа) . Команда не обладала глубокими знаниями в биологии или химии, поэтому OpenAI привлекла других экспертов (включая профессоров из MIT) для оценки рисков создания биологического оружия .
Haize Labs сфокусировались на следующих категориях рисков:
- Незаконная деятельность и мошенничество .
- Сексуальный контент.
- Дезинформация и обман.
- Правовые вопросы.
Команда работала через API, подключая свои автоматизированные пайплайны к различным чекпоинтам модели . По словам гостей, OpenAI обеспечила очень плотный цикл обратной связи: инженеры лаборатории реагировали на сообщения о найденных уязвимостях в течение минут .
Эйдан Эварт отмечает, что при тестировании моделей такого уровня крайне важно не полагаться на «ИИ-судей» (LLM-as-a-judge), так как они часто ошибаются в оценке тонких нарушений . Вместо этого Haize Labs использует калиброванные алгоритмы оценки с обязательной финальной проверкой человеком в спорных случаях .
🧠 Феномен o1: Рассуждения против взлома 33:41
Леонард Танг характеризует o1 как модель, которая «абсолютно подавляет» конкурентов в формальных задачах: математике, коде и символическом рассуждении . Однако в обычном общении (brainstorming, чат) разница с предыдущими поколениями (GPT-4o) менее заметна .
Ключевые выводы по безопасности o1:
- Устойчивость: Модель стала значительно сложнее поддаваться джейлбрейку благодаря тому, что она «рассуждает» о правилах безопасности в своем скрытом Chain of Thought (цепочке рассуждений) .
- Интеллектуальные отказы: Модель отказывает в выполнении вредных запросов более аргументированно, хотя «аматорские» попытки взлома все еще могут быть успешными .
- Двойное назначение (Dual-use): Одной из главных проблем остается контекстуальная безопасность. Например, вопросы о расовой дискриминации в колледжах могут быть как законным исследованием фактов, так и попыткой генерации вредного контента .
Брайан Хуанг подчеркивает, что OpenAI пытается научить модель рассуждать о безопасности на фундаментальном уровне, вместо того чтобы играть в «кошки-мышки» с отдельными вредоносными фразами .
🔓 Новые векторы атак: Проекционное обучение 40:22
Одним из наиболее интересных открытий Haize Labs стала атака под названием Projection Learning («Проекционное обучение») . Суть метода заключается в создании сложного шифра, которому модель обучается прямо внутри контекста (через системные инструкции и many-shot примеры).
Особенности Projection Learning:
- Модель обучается общаться на зашифрованном языке, который «прозрачен» для её логики, но обходит стандартные фильтры безопасности на входе и выходе .
- Закон обратного масштабирования (Inverse Scaling Law): Брайан Хуанг обнаружил, что чем больше и способнее модель, тем уязвимее она к этой атаке . Более мощные модели лучше усваивают сложные шифры, что позволяет эффективнее прятать вредоносные намерения.
Эйдан Эварт добавляет, что «многоходовые» атаки (multi-turn jailbreaks) остаются крайне эффективными даже для самых защищенных моделей . Если постепенно склонять модель к «помогающему» режиму в длинном диалоге, вероятность того, что она в итоге согласится на вредный запрос, резко возрастает .
🤖 Будущее: Проснутся ли агенты? 32:32
Натан Лабенц выдвигает теорию, что эра ИИ-агентов может начаться внезапно: существующие фреймворки и «скеaffolding» (вспомогательные структуры), созданные для компенсации слабостей GPT-4o, могут внезапно заработать в полную силу при замене ядра на o1 .
Гости относятся к этому осторожно. Эйдан Эварт полагает, что для полноценных долгосрочных агентов все еще требуется специфическое обучение с подкреплением (RL) на длинных горизонтах планирования, и простого улучшения рассуждений может быть недостаточно .
Тем не менее, Леонард Танг заключает, что индустрия перешла на «новый уровень игры» . По его мнению, работа по обеспечению безопасности только начинается, так как с ростом возможностей моделей растут и риски их нецелевого использования в реальном мире.