Николас Карлини о будущем кибербезопасности: «Взлом ИИ станет прибыльнее кражи банковских данных»

В новом выпуске образовательного проекта Stanford Online профессор Стэнфордского университета Дэн Боне (Dan Boneh) встретился с Николасом Карлини (Nicolas Carlini), исследователем из Anthropic и одним из самых известных «взломщиков» искусственного интеллекта. Они обсудили эволюцию состязательных атак, проблему извлечения данных из нейросетей и будущее профессии программиста в эпоху, когда ИИ начинает писать код лучше человека.

🛡️ Зарождение кибербезопасности ИИ: от экзотики к мейнстриму 0:03

Николас Карлини начал заниматься безопасностью систем ещё в докторантуре Калифорнийского университета в Беркли, изучая атаки на возвратно-ориентированное программирование . В 2015 году, когда машинное обучение только начинало демонстрировать реальные успехи (вскоре после появления AlexNet), область безопасности ИИ была практически пуста.

По словам Карлини, его переход в эту сферу был во многом делом случая: ему хотелось найти нишу, которой никто не занимается . С тех пор область испытала экспоненциальный рост:

В 2014–2015 годах по теме выходили лишь единичные работы, такие как знаменитая статья Яна Гудфеллоу (Ian Goodfellow) .
К 2024 году количество ежегодных публикаций о состязательных примерах (adversarial examples) достигло отметки в 12 000 .

🎭 Феномен переносимости атак: почему «скрытность» не помогает 0:41

Одним из первых инстинктивных методов защиты ИИ-моделей является сокрытие их весов (параметров). Однако Николас Карлини утверждает, что это не гарантирует безопасности из-за свойства «переносимости» (transferability) атак .

Суть проблемы заключается в том, что состязательный пример (специально изменённый входной сигнал), созданный для обмана одной модели, с высокой вероятностью обманет и другую, обученную на тех же данных для той же задачи . Дэн Боне проводит аналогию с оптическими иллюзиями: иллюзия, обманывающая зрительную кору одного человека, почти наверняка обманет и другого, несмотря на разный жизненный опыт (обучающие данные) .

Карлини выделяет следующие закономерности переносимости:

Чем ближе архитектуры моделей (например, две свёрточные сети), тем лучше переносятся атаки .
Чем больше пересекаются распределения обучающих данных, тем выше успех взлома .
Атакующий может делать запросы к «черному ящику» (скрытой модели) и на основе ответов дообучать свою копию, доводя переносимость до идеала .

В итоге, по мнению гостя, сокрытие весов — это лишь «барьер», который повышает стоимость атаки, но не решает проблему фундаментально .

🧪 От «гуакамоле» до Napalm-бабушки: эволюция угроз в LLM 7:09

Ранние исследования безопасности ИИ часто критиковали за оторванность от реальности. Классический пример: добавление шума к фото кота, после чего нейросеть классифицирует его как «гуакамоле» . Карлини признаёт, что такие сценарии вряд ли являются реальной угрозой, но с появлением языковых моделей (LLM) ситуация изменилась .

Сегодня атаки нацелены не на забавную смену меток, а на обход фильтров безопасности (jailbreaking). Карлини разделяет способы обхода ограничений на два типа:

Текстовый хакинг (Human-level text hacking): использование сложных ролевых сценариев. Например, просьба написать сценарий фильма, где герой делает бомбу . Ранее работал курьёзный метод «бабушки»: пользователь просил модель притвориться бабушкой, которая читала на ночь рецепт напалма, чтобы внук уснул . Карлини полагает, что такие методы со временем будут исправлены, так как они основаны на социальной инженерии .
Алгоритмические атаки: использование градиентных методов (подобных FGSM) для генерации бессмысленных строк символов, которые при добавлении к запросу заставляют модель отвечать на запрещённые темы . Такие «универсальные джейлбрейки» переносятся между разными моделями (даже от моделей с 7 млрд параметров к GPT-4) и их гораздо сложнее остановить .

🛡️ Методы защиты: «Конституционные классификаторы» 15:54

Для борьбы с атаками в Anthropic используют подход «Конституционных классификаторов» (Constitutional Classifiers) . Это отдельные модели-фильтры, которые проверяют входящий запрос и исходящий ответ.

Преимущество: они не снижают общую производительность (utility) основной модели, так как добавляются поверх неё .
Эффективность: в ходе тестов на несколько тысяч часов попыток взлома обычными пользователями через Twitter лишь единицам удалось пройти фильтры .
Риск: Карлини опасается, что автоматизированные алгоритмические атаки смогут обходить эти фильтры так же, как и основные модели .

🖼️ Отрава для данных: защита приватности и прав художников 19:51

Обсуждая «отравление» данных (data poisoning), собеседники затронули тему защиты авторского стиля и личных фото. Существуют инструменты, позволяющие добавлять в изображения невидимый шум, чтобы компании не могли обучать на них свои модели (например, системы распознавания лиц) .

Однако Николас Карлини настроен скептически. Он называет это проблемой «преимущества последнего хода» (last mover advantage) :

Вы выкладываете «отравленное» фото сегодня, но через полгода методы обучения изменятся, и защита может перестать работать .
Обучающая сторона может просто собирать данные и ждать появления новых технологий очистки шума .
В недавней работе Карлини и его коллеги (включая Флориана Трамера) показали, что многие текущие методы защиты художников можно обойти .

По мнению гостя, в вопросе защиты интеллектуальной собственности юридические и политические механизмы могут оказаться эффективнее технологических .

💳 Промпт-инъекции: главная угроза для ИИ-агентов 26:30

Карлини считает промпт-инъекции (prompt injection) одной из критических проблем современности, особенно в контексте «агентов» — систем, имеющих доступ к почте или кредитной карте пользователя .

Главные риски:

Экономическая мотивация: если за создание бомбы денег не платят, то на краже 3% всех транзакций через промпт-инъекции можно построить преступную империю .
Утечка IP (интеллектуальной собственности): через инъекцию можно заставить корпоративного помощника выдать секретные данные компании .
По словам Карлини, в ближайшие год-два именно безопасность, а не возможности моделей, станет главным препятствием для массового внедрения личных ИИ-ассистентов .

🔓 Извлечение моделей и данных: секретов больше нет? 38:13

Ещё одна область интересов Карлини — извлечение моделей (model extraction). Исследователи доказали, что, просто посылая запросы к API, можно восстановить внутренние веса нейросети с точностью до бита (в определенных условиях) .

Основные выводы:

Для классификаторов (кот/собака) атакующий может использовать подобие бинарного поиска, чтобы найти границы принятия решений и восстановить внутренние нейроны .
Метод дистилляции (distillation) позволяет создать малую модель, которая почти не уступает огромной проприетарной сети, просто обучаясь на её ответах . Компании, такие как Google, сами используют это для создания семейств моделей вроде Gemma на базе Gemini .
Компании (например, OpenAI) пытаются защищаться, ограничивая детализацию ответов в API (убирая векторы вероятностей или ограничивая доступ к logit bias), но это лишь усложняет, а не исключает атаку .

Что касается приватности данных, Карлини подтверждает: чем больше модель, тем лучше она запоминает обучающие примеры дословно . Дифференциальная приватность (Differential Privacy) является математически идеальным решением, но она замедляет обучение и снижает качество модели .

💻 Будущее программирования: от написания кода к аудиту 57:39

Дэн Боне привел пример из практики: ИИ помог его другу обновить API в кодовой базе из миллиона строк за 10 секунд — задача, на которую у человека ушёл бы день . Карлини согласен с мощью инструментов, но выражает обеспокоенность качеством .

Ключевые тезисы о кодинге:

Модели отлично справляются с паттернами («повтори это 1000 раз»), но пока слабы в глубокой архитектурной переработке .
Средняя модель обучается на «среднем программисте» из интернета, который редко пишет безопасный код .
Сложность обучения через подкрепление (RL) для безопасности: легко проверить, работает ли функция (5=6?), но крайне сложно автоматически проверить её на наличие уязвимостей памяти .
Карлини ожидает, что работа программиста сместится в сторону аудита: человек будет не писать код, а проверять то, что сгенерировал ИИ .

🎓 Советы студентам и взгляд в будущее 1:10:36

Николас Карлини уверен, что основы Computer Science (ассемблер, устройство ОС, компиляторы) останутся важными даже в мире «программирования на английском» . Знание того, как работает «железо» (например, ветвление в CUDA), необходимо для создания действительно быстрых систем, чего ИИ пока не может обеспечить в одиночку .

Его главный жизненный совет: «Прячьте свои предубеждения» .

Карлини признаётся, что ему не нравится подход обучения через предсказание следующего токена — он кажется ему «неправильным» путём к интеллекту .
Однако, поскольку этот метод эмпирически работает и люди его используют, исследователь обязан заниматься его безопасностью .
Нужно работать над тем, что важно для мира сейчас, независимо от ваших симпатий к конкретной технологии .