Николас Карлини: «Мы обречены жить в мире уязвимых ИИ»

Будущее ИИ-безопасности: Уязвимости, модели и «парадоксы» Николаса Карлини 3:04

В мире машинного обучения Николас Карлини (исследователь Google DeepMind) занимает уникальную нишу: он тот, кто «ломает» модели, чтобы понять их уязвимости. В беседе с каналом Machine Learning Street Talk он обсуждает, почему мы, вероятно, обречены жить в мире уязвимых систем, и почему «взлом» языковых моделей — это не только вопрос безопасности, но и лучший способ проверить, на что они способны на самом деле.

🛡️ Уязвимости как новая норма 3:18

По мнению Карлини, поиск идеальной безопасности — недостижимая цель. В традиционном софте мы привыкли полагаться на то, что государственные структуры не будут атаковать конкретного пользователя, но в сфере ML «среднестатистический человек» может без труда найти на GitHub код, позволяющий заставить модель совершать произвольные вредоносные действия.

Основные тезисы о безопасности:

Отсутствие совершенства: Мы не добьемся полной устойчивости моделей в обозримом будущем.
Новая парадигма: Вместо попыток сделать сами модели «непробиваемыми», нам придется проектировать окружающие их системы так, чтобы даже ошибочное или вредоносное решение модели не приводило к катастрофическим последствиям.
Сложность атак: Нападающему достаточно найти один слабый угол, тогда как защитнику нужно «закрыть» их все. В ML ситуация осложняется тем, что постоянно открываются новые классы атак, о которых мы даже не подозревали.

♟️ Парадокс «шахматного» интеллекта 8:18

Один из самых ярких примеров Карлини — способность языковых моделей играть в шахматы. Несмотря на отсутствие прямого обучения правилам, модели после определенного уровня обучения начинают демонстрировать поразительное понимание доски.

Моделирование мира: Карлини утверждает: если система делает валидные ходы в шахматах, она в каком-то смысле обязана внутри себя точно моделировать состояние «мира» (доски).
Проблема «игры на победу»: Модели не обучались выигрывать. Они обучались предсказывать следующий токен на основе данных, где люди часто совершают ошибки или играют в «странные» шахматы.
Зависимость от промптера: Модель — это отражение пользователя. Если вы «галактический мозг», использующий LLM для сложных задач, модель будет выдавать результат соответствующего уровня.

🛠️ Инструменты: больше, чем просто чат 44:36

Для Карлини LLM — это инструмент, повышающий производительность программирования примерно на 50%. Однако он делает важную оговорку: это работает только для тех, кто уже понимает фундаментальные основы.

Риск «ядовитого» кода: Если модель пишет функцию шифрования или запрос к БД, она часто делает это с типичными ошибками (например, SQL-инъекции). Компетентный разработчик увидит баг и исправит его, а новичок — просто скопирует уязвимость в продукт.
«Сверхспособность»: Использование LLM сродни переходу от ассемблера к высокоуровневым языкам. Это не делает пользователя экспертом, но избавляет от рутины, позволяя сфокусироваться на самой задаче.

🔍 «Кража» моделей: от теории к практике 1:10:10

Один из наиболее любопытных проектов Карлини — исследование того, можно ли украсть часть архитектуры большой языковой модели через обычные API-запросы.

Реальные результаты: В ходе эксперимента команда смогла восстановить размер модели и её последний слой для GPT-3.5, что до этого никогда не раскрывалось официально.
Математический подход: Используя сингулярное разложение (SVD), исследователи смогли вычислить параметры модели, опираясь лишь на линейную алгебру уровня бакалавриата.
Responsible Disclosure: Исследователи заранее договорились с OpenAI и Google о возможности проведения эксперимента, после чего компании закрыли уязвимость.