Адам Глив из FAR.AI: «Современные ИИ-системы уязвимы по умолчанию»

The Cognitive Revolution 1 тыс. 1 ч 43 мин 5 мин 27.03.2024
Главное

Современные модели искусственного интеллекта, такие как GPT-4, обладают впечатляющим интеллектом, но остаются крайне уязвимыми для атак. Адам Глив, генеральный директор исследовательской организации FAR.AI, утверждает, что текущие системы «безопасны только по умолчанию», но легко поддаются взлому при минимальных усилиях.

В интервью для The Cognitive Revolution Адам Глив обсуждает результаты последних исследований FAR.AI, которые выявили критические дыры в API GPT-4 и продемонстрировали, как «сверхчеловеческие» системы для игры в Го могут быть побеждены простыми стратегиями, непонятными для ИИ .

🛡️ Безопасность ИИ: от теории к практическим угрозам 8:29

Главная проблема безопасности современных систем ИИ заключается не только в их «интеллекте», но и в тех инструментах, к которым они получают доступ. Адам Глив отмечает, что старая аналогия «мозга Эйнштейна в колбе» (умный, но изолированный ИИ) больше не актуальна. Современным моделям дают возможность запускать код, создавать виртуальные машины и использовать внешние API .

По мнению Глива, важность уязвимостей определяется двумя факторами:

Адам Глив утверждает, что в настоящее время даже небольшие компании могут столкнуться с тем, что их системы будут использованы не по назначению из-за отсутствия фундаментальных защитных механизмов .

🔓 Уязвимости GPT-4: взлом через дообучение (Fine-tuning) 16:52

Исследователи FAR.AI обнаружили, что API для дообучения (fine-tuning) GPT-4 позволяет легко обходить встроенные фильтры безопасности. Глив выделяет несколько типов атак:

1. Случайный «джейлбрейк» (Accidental Jailbreaking)

Самое удивительное открытие заключается в том, что разработчик может лишить модель защитных фильтров случайно. Если дообучать модель на абсолютно безвредном наборе данных (например, на 100 примерах ответов на обычные вопросы), она «забывает» инструкции по безопасности. Модель стремится быть максимально услужливой и начинает отвечать на вредоносные запросы, которые раньше блокировала .

2. Целевая дезинформация

Для создания политически предвзятой модели потребовалось всего 15 примеров предвзятых ответов (например, против Дональда Трампа или Хиллари Клинтон) .

3. Вредоносный код и кража данных

Исследователи смогли обучить GPT-4 вставлять вредоносные ссылки в генерируемый код, используя всего 35 примеров . Также модель удалось заставить выдавать частные адреса электронной почты, хотя изначально она была обучена отказывать в таких запросах. Для этого потребовалось всего 10 пар вопросов и ответов .

🤖 Проблемы Assistants API: аффордансы и захват контроля 35:08

Новый Assistants API от OpenAI, позволяющий моделям использовать инструменты (поиск в интернете, интерпретатор кода, вызов функций), создает новые векторы атак.

🏛️ Этика раскрытия и регулирование 45:00

Адам Глив придерживается политики ответственного раскрытия информации (responsible disclosure), обычно давая разработчикам от 4 недель до 3 месяцев на исправление уязвимостей перед публикацией . Однако он подчеркивает, что проблемы ИИ нельзя «запатчить» обычным программным кодом — они требуют фундаментальных научных прорывов .

Глив и ведущий обсудили ответственность сторон:

🎲 Победа над «сверхчеловеческим» ИИ в Го 1:07:37

Одним из самых ярких примеров хрупкости ИИ стало исследование FAR.AI системы Katago, которая считается сильнее любого профессионального игрока-человека в Го.

Исследователи применили метод «серого ящика» (возможность запрашивать ходы, но не видеть веса модели) для поиска уязвимостей .

Глив подчеркивает: даже «сверхчеловеческая» система может иметь глубокие, логически простые изъяны, которые не выявляются обычным обучением. Хуже того, атаки, найденные на одной модели Го, часто срабатывают и на других, включая закрытые коммерческие системы .

📉 Налог на устойчивость и будущее 1:20:20

Устранение уязвимостей обходится дорого — это то, что Глив называет «налогом на устойчивость» (robustness tax).

  1. Снижение производительности: Модели, прошедшие состязательное обучение (adversarial training), часто показывают худшие результаты на обычных задачах .
  2. Затраты на вычисления: Обучение защищенной модели требует значительно больше ресурсов .
  3. Сложность фильтрации: Удаление опасных знаний (например, о биологическом оружии) может лишить модель полезных знаний в области химии или медицины (dual-use problem) .

По мнению Глива, сейчас способности моделей растут на порядок быстрее, чем их устойчивость к атакам . Эмпирические законы масштабирования показывают, что простое увеличение моделей не делает их безопасными: при переходе от 13 млн к 1 млрд параметров устойчивость повышается всего на 10%, в то время как способности растут экспоненциально .

Адам Глив считает, что выходом может стать «отказоустойчивый ИИ» — система многоуровневой защиты, где разные модели контролируют друг друга, а аффордансы (права доступа) жестко ограничены по принципу минимальных привилегий .

💬 Цитаты

«Если бы они потратили 1% от 7 миллиардов инвестиций, то есть 70 миллионов на безопасность ИИ, это было бы близко к удвоению выручки, расходуемой на безопасность ИИ во всем мире.»

«Вы не можете забрать мир, каким бы умным вы ни были, если всё, что вы можете — это просто думать. Но теперь мы не просто даем моделям думать, мы даем им доступ к коду и внешним API.»

«Способности ИИ растут примерно на порядок быстрее, чем его устойчивость к атакам.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Джейлбрейк (Jailbreaking)
Процесс обхода ограничений безопасности ИИ-модели для получения запрещенного контента.
Аффордансы (Affordances)
Набор инструментов и прав доступа, которые ИИ-модель может использовать во внешнем мире (запуск кода, доступ в интернет).
Состязательная устойчивость (Adversarial Robustness)
Способность системы ИИ сохранять правильную работу при попытках злоумышленника обмануть её специально подобранными входными данными.
Fine-tuning
Процесс дообучения предварительно обученной модели на специфическом наборе данных для изменения её поведения.
📊 Цифры
🗓 Хронология
  1. Март 2023 Запуск GPT-4.
  2. Декабрь 2023 Воркшоп по выравниванию (alignment) в Новом Орлеане перед конференцией NeurIPS.
  3. Январь 2024 Публикация блога FAR.AI об уязвимостях GPT-4 (примерное время публикации результатов).
⚖️ Другая сторона
Искусственный интеллект GPT-4 FAR.AI Адам Глив безопасность ИИ Katago