Николас Карлини о будущем кибербезопасности: «Взлом ИИ станет прибыльнее кражи банковских данных»

Stanford Online 10,6 тыс. 1 ч 17 мин 6 мин 22.10.2025
Главное

В новом выпуске образовательного проекта Stanford Online профессор Стэнфордского университета Дэн Боне (Dan Boneh) встретился с Николасом Карлини (Nicolas Carlini), исследователем из Anthropic и одним из самых известных «взломщиков» искусственного интеллекта. Они обсудили эволюцию состязательных атак, проблему извлечения данных из нейросетей и будущее профессии программиста в эпоху, когда ИИ начинает писать код лучше человека.

🛡️ Зарождение кибербезопасности ИИ: от экзотики к мейнстриму 0:03

Николас Карлини начал заниматься безопасностью систем ещё в докторантуре Калифорнийского университета в Беркли, изучая атаки на возвратно-ориентированное программирование . В 2015 году, когда машинное обучение только начинало демонстрировать реальные успехи (вскоре после появления AlexNet), область безопасности ИИ была практически пуста.

По словам Карлини, его переход в эту сферу был во многом делом случая: ему хотелось найти нишу, которой никто не занимается . С тех пор область испытала экспоненциальный рост:

🎭 Феномен переносимости атак: почему «скрытность» не помогает 0:41

Одним из первых инстинктивных методов защиты ИИ-моделей является сокрытие их весов (параметров). Однако Николас Карлини утверждает, что это не гарантирует безопасности из-за свойства «переносимости» (transferability) атак .

Суть проблемы заключается в том, что состязательный пример (специально изменённый входной сигнал), созданный для обмана одной модели, с высокой вероятностью обманет и другую, обученную на тех же данных для той же задачи . Дэн Боне проводит аналогию с оптическими иллюзиями: иллюзия, обманывающая зрительную кору одного человека, почти наверняка обманет и другого, несмотря на разный жизненный опыт (обучающие данные) .

Карлини выделяет следующие закономерности переносимости:

В итоге, по мнению гостя, сокрытие весов — это лишь «барьер», который повышает стоимость атаки, но не решает проблему фундаментально .

🧪 От «гуакамоле» до Napalm-бабушки: эволюция угроз в LLM 7:09

Ранние исследования безопасности ИИ часто критиковали за оторванность от реальности. Классический пример: добавление шума к фото кота, после чего нейросеть классифицирует его как «гуакамоле» . Карлини признаёт, что такие сценарии вряд ли являются реальной угрозой, но с появлением языковых моделей (LLM) ситуация изменилась .

Сегодня атаки нацелены не на забавную смену меток, а на обход фильтров безопасности (jailbreaking). Карлини разделяет способы обхода ограничений на два типа:

  1. Текстовый хакинг (Human-level text hacking): использование сложных ролевых сценариев. Например, просьба написать сценарий фильма, где герой делает бомбу . Ранее работал курьёзный метод «бабушки»: пользователь просил модель притвориться бабушкой, которая читала на ночь рецепт напалма, чтобы внук уснул . Карлини полагает, что такие методы со временем будут исправлены, так как они основаны на социальной инженерии .
  2. Алгоритмические атаки: использование градиентных методов (подобных FGSM) для генерации бессмысленных строк символов, которые при добавлении к запросу заставляют модель отвечать на запрещённые темы . Такие «универсальные джейлбрейки» переносятся между разными моделями (даже от моделей с 7 млрд параметров к GPT-4) и их гораздо сложнее остановить .

🛡️ Методы защиты: «Конституционные классификаторы» 15:54

Для борьбы с атаками в Anthropic используют подход «Конституционных классификаторов» (Constitutional Classifiers) . Это отдельные модели-фильтры, которые проверяют входящий запрос и исходящий ответ.

🖼️ Отрава для данных: защита приватности и прав художников 19:51

Обсуждая «отравление» данных (data poisoning), собеседники затронули тему защиты авторского стиля и личных фото. Существуют инструменты, позволяющие добавлять в изображения невидимый шум, чтобы компании не могли обучать на них свои модели (например, системы распознавания лиц) .

Однако Николас Карлини настроен скептически. Он называет это проблемой «преимущества последнего хода» (last mover advantage) :

По мнению гостя, в вопросе защиты интеллектуальной собственности юридические и политические механизмы могут оказаться эффективнее технологических .

💳 Промпт-инъекции: главная угроза для ИИ-агентов 26:30

Карлини считает промпт-инъекции (prompt injection) одной из критических проблем современности, особенно в контексте «агентов» — систем, имеющих доступ к почте или кредитной карте пользователя .

Главные риски:

🔓 Извлечение моделей и данных: секретов больше нет? 38:13

Ещё одна область интересов Карлини — извлечение моделей (model extraction). Исследователи доказали, что, просто посылая запросы к API, можно восстановить внутренние веса нейросети с точностью до бита (в определенных условиях) .

Основные выводы:

Что касается приватности данных, Карлини подтверждает: чем больше модель, тем лучше она запоминает обучающие примеры дословно . Дифференциальная приватность (Differential Privacy) является математически идеальным решением, но она замедляет обучение и снижает качество модели .

💻 Будущее программирования: от написания кода к аудиту 57:39

Дэн Боне привел пример из практики: ИИ помог его другу обновить API в кодовой базе из миллиона строк за 10 секунд — задача, на которую у человека ушёл бы день . Карлини согласен с мощью инструментов, но выражает обеспокоенность качеством .

Ключевые тезисы о кодинге:

🎓 Советы студентам и взгляд в будущее 1:10:36

Николас Карлини уверен, что основы Computer Science (ассемблер, устройство ОС, компиляторы) останутся важными даже в мире «программирования на английском» . Знание того, как работает «железо» (например, ветвление в CUDA), необходимо для создания действительно быстрых систем, чего ИИ пока не может обеспечить в одиночку .

Его главный жизненный совет: «Прячьте свои предубеждения» .

💬 Цитаты

«Атака, обманывающая зрительную кору одного человека, почти наверняка обманет и другого, несмотря на разный жизненный опыт.»

Дэн Боне 4:22

«Масштаб — это магия, которая заставляет вещи работать, даже если вам не нравится сам метод.»

Николас Карлини 1:15:06

«Цель инженера — не писать строки кода, а решать проблемы.»

Николас Карлини 1:08:35
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Состязательные примеры (Adversarial Examples)
Входные данные, намеренно измененные так, чтобы вызвать ошибку в работе нейросети, оставаясь незаметными для человека.
Дистилляция (Distillation)
Процесс обучения маленькой модели на ответах большой и сложной модели для копирования её способностей.
Дифференциальная приватность (Differential Privacy)
Математический подход к обучению, гарантирующий, что наличие или отсутствие конкретного человека в обучающей выборке не изменит результат работы модели.
Промпт-инъекция (Prompt Injection)
Атака на языковую модель, при которой в запрос встраиваются инструкции, заставляющие систему игнорировать правила безопасности.
📊 Цифры
🗓 Хронология
  1. 2013-2014 Появление первых фундаментальных работ о состязательных атаках на нейросети.
  2. 2015 Николас Карлини начинает заниматься безопасностью ИИ во время учебы в Беркли.
  3. 2024 Индустрия переходит от простых классификаторов к сложным ИИ-агентам, где безопасность становится критическим барьером.
⚖️ Другая сторона
Искусственный интеллект Nicolas Carlini Dan Boneh Anthropic Stanford Online Adversarial examples