Взлом через рассуждения: как команда Haize Labs проводила Red Teaming новой модели OpenAI o1

The Cognitive Revolution 3,8 тыс. 1 ч 6 мин 4 мин 14.09.2024
Главное

В экстренном выпуске подкаста The Cognitive Revolution ведущий Натан Лабенц обсуждает с командой стартапа Haize Labs результаты тестирования новой линейки моделей o1 от OpenAI. В центре внимания — механизмы автоматизированного «джейлбрейка», новые векторы атак через скрытые рассуждения и то, насколько сложнее (или проще) стало взламывать ИИ, который научился «думать» перед ответом.

🛡️ Haize Labs: Искусство «дедовщины» для нейросетей 6:04

Компания Haize Labs была основана в январе 2024 года группой исследователей, отказавшихся от научной карьеры ради решения практических проблем надежности ИИ . Название компании происходит от английского термина hazing (своеобразный обряд инициации или «дедовщина»), что отражает их миссию: подвергать модели жесткому стресс-тестированию в масштабе перед их выходом в продакшн .

Основные факты о компании:

Леонард Танг поясняет, что их работа направлена не только на долгосрочные риски безопасности, но и на краткосрочную надежность систем . Команда использует портфель методов атаки, включая:

🧪 Red Teaming для o1: Как проходили испытания 13:03

Вопреки слухам в соцсетях о том, что на тестирование o1 было выделено всего 10 дней, Брайан Хуанг утверждает, что у Haize Labs был примерно месяц (с начала августа) . Команда не обладала глубокими знаниями в биологии или химии, поэтому OpenAI привлекла других экспертов (включая профессоров из MIT) для оценки рисков создания биологического оружия .

Haize Labs сфокусировались на следующих категориях рисков:

Команда работала через API, подключая свои автоматизированные пайплайны к различным чекпоинтам модели . По словам гостей, OpenAI обеспечила очень плотный цикл обратной связи: инженеры лаборатории реагировали на сообщения о найденных уязвимостях в течение минут .

Эйдан Эварт отмечает, что при тестировании моделей такого уровня крайне важно не полагаться на «ИИ-судей» (LLM-as-a-judge), так как они часто ошибаются в оценке тонких нарушений . Вместо этого Haize Labs использует калиброванные алгоритмы оценки с обязательной финальной проверкой человеком в спорных случаях .

🧠 Феномен o1: Рассуждения против взлома 33:41

Леонард Танг характеризует o1 как модель, которая «абсолютно подавляет» конкурентов в формальных задачах: математике, коде и символическом рассуждении . Однако в обычном общении (brainstorming, чат) разница с предыдущими поколениями (GPT-4o) менее заметна .

Ключевые выводы по безопасности o1:

  1. Устойчивость: Модель стала значительно сложнее поддаваться джейлбрейку благодаря тому, что она «рассуждает» о правилах безопасности в своем скрытом Chain of Thought (цепочке рассуждений) .
  2. Интеллектуальные отказы: Модель отказывает в выполнении вредных запросов более аргументированно, хотя «аматорские» попытки взлома все еще могут быть успешными .
  3. Двойное назначение (Dual-use): Одной из главных проблем остается контекстуальная безопасность. Например, вопросы о расовой дискриминации в колледжах могут быть как законным исследованием фактов, так и попыткой генерации вредного контента .

Брайан Хуанг подчеркивает, что OpenAI пытается научить модель рассуждать о безопасности на фундаментальном уровне, вместо того чтобы играть в «кошки-мышки» с отдельными вредоносными фразами .

🔓 Новые векторы атак: Проекционное обучение 40:22

Одним из наиболее интересных открытий Haize Labs стала атака под названием Projection Learning («Проекционное обучение») . Суть метода заключается в создании сложного шифра, которому модель обучается прямо внутри контекста (через системные инструкции и many-shot примеры).

Особенности Projection Learning:

Эйдан Эварт добавляет, что «многоходовые» атаки (multi-turn jailbreaks) остаются крайне эффективными даже для самых защищенных моделей . Если постепенно склонять модель к «помогающему» режиму в длинном диалоге, вероятность того, что она в итоге согласится на вредный запрос, резко возрастает .

🤖 Будущее: Проснутся ли агенты? 32:32

Натан Лабенц выдвигает теорию, что эра ИИ-агентов может начаться внезапно: существующие фреймворки и «скеaffolding» (вспомогательные структуры), созданные для компенсации слабостей GPT-4o, могут внезапно заработать в полную силу при замене ядра на o1 .

Гости относятся к этому осторожно. Эйдан Эварт полагает, что для полноценных долгосрочных агентов все еще требуется специфическое обучение с подкреплением (RL) на длинных горизонтах планирования, и простого улучшения рассуждений может быть недостаточно .

Тем не менее, Леонард Танг заключает, что индустрия перешла на «новый уровень игры» . По его мнению, работа по обеспечению безопасности только начинается, так как с ростом возможностей моделей растут и риски их нецелевого использования в реальном мире.

💬 Цитаты

«Мы обнаружили действительно крутой закон обратного масштабирования: чем больше и мощнее модель, тем она более уязвима для нашей атаки проекционным обучением.»

Леонард Танг 58:51

«Джейлбрейк — это не бинарное состояние. Есть задачи, для которых взломать модель намного сложнее, и задачи, где цена взлома гораздо выше.»

Эйдан Эварт 53:41
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Jailbreaking (Джейлбрейк)
Процесс обхода встроенных ограничений безопасности ИИ-модели для получения запрещенных ответов.
Chain of Thought (CoT)
Метод, при котором модель генерирует промежуточные логические шаги перед выдачей финального ответа.
Red Teaming
Процесс имитации атак злоумышленников для проверки защищенности системы.
📊 Цифры
🗓 Хронология
  1. Январь 2024 Основание Haize Labs
  2. Июнь 2024 Выход Haize Labs из скрытого режима и получение инвестиций от General Catalyst
  3. Начало августа 2024 Старт тестирования модели o1 командой Haize Labs
  4. 12 сентября 2024 Официальный релиз OpenAI o1
⚖️ Другая сторона
Искусственный интеллект Haize Labs OpenAI o1 Red Teaming Jailbreaking Projection Learning