# Николас Карлини о будущем кибербезопасности: «Взлом ИИ станет прибыльнее кражи банковских данных»

Источник: https://www.youtube.com/watch?v=qCBfc8sfAJo
Канал: Stanford Online
Опубликовано: 22.10.2025

---

В новом выпуске образовательного проекта Stanford Online профессор Стэнфордского университета Дэн Боне (Dan Boneh) встретился с Николасом Карлини (Nicolas Carlini), исследователем из Anthropic и одним из самых известных «взломщиков» искусственного интеллекта. Они обсудили эволюцию состязательных атак, проблему извлечения данных из нейросетей и будущее профессии программиста в эпоху, когда ИИ начинает писать код лучше человека.

## 🛡️ Зарождение кибербезопасности ИИ: от экзотики к мейнстриму
[[JUMP:0:03]]

Николас Карлини начал заниматься безопасностью систем ещё в докторантуре Калифорнийского университета в Беркли, изучая атаки на возвратно-ориентированное программирование [0:53]. В 2015 году, когда машинное обучение только начинало демонстрировать реальные успехи (вскоре после появления AlexNet), область безопасности ИИ была практически пуста.

По словам Карлини, его переход в эту сферу был во многом делом случая: ему хотелось найти нишу, которой никто не занимается [1:32]. С тех пор область испытала экспоненциальный рост:

*   В 2014–2015 годах по теме выходили лишь единичные работы, такие как знаменитая статья Яна Гудфеллоу (Ian Goodfellow) [1:45].
*   К 2024 году количество ежегодных публикаций о состязательных примерах (adversarial examples) достигло отметки в 12 000 [2:26].

## 🎭 Феномен переносимости атак: почему «скрытность» не помогает
[[JUMP:0:41]]

Одним из первых инстинктивных методов защиты ИИ-моделей является сокрытие их весов (параметров). Однако Николас Карлини утверждает, что это не гарантирует безопасности из-за свойства «переносимости» (transferability) атак [3:16].

Суть проблемы заключается в том, что состязательный пример (специально изменённый входной сигнал), созданный для обмана одной модели, с высокой вероятностью обманет и другую, обученную на тех же данных для той же задачи [3:42]. Дэн Боне проводит аналогию с оптическими иллюзиями: иллюзия, обманывающая зрительную кору одного человека, почти наверняка обманет и другого, несмотря на разный жизненный опыт (обучающие данные) [4:22].

Карлини выделяет следующие закономерности переносимости:

*   Чем ближе архитектуры моделей (например, две свёрточные сети), тем лучше переносятся атаки [4:49].
*   Чем больше пересекаются распределения обучающих данных, тем выше успех взлома [5:03].
*   Атакующий может делать запросы к «черному ящику» (скрытой модели) и на основе ответов дообучать свою копию, доводя переносимость до идеала [5:17].

В итоге, по мнению гостя, сокрытие весов — это лишь «барьер», который повышает стоимость атаки, но не решает проблему фундаментально [6:41].

## 🧪 От «гуакамоле» до Napalm-бабушки: эволюция угроз в LLM
[[JUMP:7:09]]

Ранние исследования безопасности ИИ часто критиковали за оторванность от реальности. Классический пример: добавление шума к фото кота, после чего нейросеть классифицирует его как «гуакамоле» [7:09]. Карлини признаёт, что такие сценарии вряд ли являются реальной угрозой, но с появлением языковых моделей (LLM) ситуация изменилась [8:20].

Сегодня атаки нацелены не на забавную смену меток, а на обход фильтров безопасности (jailbreaking). Карлини разделяет способы обхода ограничений на два типа:

1.  **Текстовый хакинг (Human-level text hacking):** использование сложных ролевых сценариев. Например, просьба написать сценарий фильма, где герой делает бомбу [10:36]. Ранее работал курьёзный метод «бабушки»: пользователь просил модель притвориться бабушкой, которая читала на ночь рецепт напалма, чтобы внук уснул [12:36]. Карлини полагает, что такие методы со временем будут исправлены, так как они основаны на социальной инженерии [13:58].
2.  **Алгоритмические атаки:** использование градиентных методов (подобных FGSM) для генерации бессмысленных строк символов, которые при добавлении к запросу заставляют модель отвечать на запрещённые темы [10:49]. Такие «универсальные джейлбрейки» переносятся между разными моделями (даже от моделей с 7 млрд параметров к GPT-4) и их гораздо сложнее остановить [14:37].

## 🛡️ Методы защиты: «Конституционные классификаторы»
[[JUMP:15:54]]

Для борьбы с атаками в Anthropic используют подход «Конституционных классификаторов» (Constitutional Classifiers) [16:22]. Это отдельные модели-фильтры, которые проверяют входящий запрос и исходящий ответ.

*   Преимущество: они не снижают общую производительность (utility) основной модели, так как добавляются поверх неё [17:01].
*   Эффективность: в ходе тестов на несколько тысяч часов попыток взлома обычными пользователями через Twitter лишь единицам удалось пройти фильтры [17:31].
*   Риск: Карлини опасается, что автоматизированные алгоритмические атаки смогут обходить эти фильтры так же, как и основные модели [17:56].

## 🖼️ Отрава для данных: защита приватности и прав художников
[[JUMP:19:51]]

Обсуждая «отравление» данных (data poisoning), собеседники затронули тему защиты авторского стиля и личных фото. Существуют инструменты, позволяющие добавлять в изображения невидимый шум, чтобы компании не могли обучать на них свои модели (например, системы распознавания лиц) [20:43].

Однако Николас Карлини настроен скептически. Он называет это проблемой «преимущества последнего хода» (last mover advantage) [22:46]:

*   Вы выкладываете «отравленное» фото сегодня, но через полгода методы обучения изменятся, и защита может перестать работать [22:04].
*   Обучающая сторона может просто собирать данные и ждать появления новых технологий очистки шума [22:32].
*   В недавней работе Карлини и его коллеги (включая Флориана Трамера) показали, что многие текущие методы защиты художников можно обойти [25:08].

По мнению гостя, в вопросе защиты интеллектуальной собственности юридические и политические механизмы могут оказаться эффективнее технологических [26:16].

## 💳 Промпт-инъекции: главная угроза для ИИ-агентов
[[JUMP:26:30]]

Карлини считает промпт-инъекции (prompt injection) одной из критических проблем современности, особенно в контексте «агентов» — систем, имеющих доступ к почте или кредитной карте пользователя [26:57].

Главные риски:

*   Экономическая мотивация: если за создание бомбы денег не платят, то на краже 3% всех транзакций через промпт-инъекции можно построить преступную империю [28:23].
*   Утечка IP (интеллектуальной собственности): через инъекцию можно заставить корпоративного помощника выдать секретные данные компании [28:38].
*   По словам Карлини, в ближайшие год-два именно безопасность, а не возможности моделей, станет главным препятствием для массового внедрения личных ИИ-ассистентов [29:03].

## 🔓 Извлечение моделей и данных: секретов больше нет?
[[JUMP:38:13]]

Ещё одна область интересов Карлини — извлечение моделей (model extraction). Исследователи доказали, что, просто посылая запросы к API, можно восстановить внутренние веса нейросети с точностью до бита (в определенных условиях) [40:25].

Основные выводы:

*   Для классификаторов (кот/собака) атакующий может использовать подобие бинарного поиска, чтобы найти границы принятия решений и восстановить внутренние нейроны [41:07].
*   Метод дистилляции (distillation) позволяет создать малую модель, которая почти не уступает огромной проприетарной сети, просто обучаясь на её ответах [43:57]. Компании, такие как Google, сами используют это для создания семейств моделей вроде Gemma на базе Gemini [44:38].
*   Компании (например, OpenAI) пытаются защищаться, ограничивая детализацию ответов в API (убирая векторы вероятностей или ограничивая доступ к logit bias), но это лишь усложняет, а не исключает атаку [48:08].

Что касается приватности данных, Карлини подтверждает: чем больше модель, тем лучше она запоминает обучающие примеры дословно [52:12]. Дифференциальная приватность (Differential Privacy) является математически идеальным решением, но она замедляет обучение и снижает качество модели [54:09].

## 💻 Будущее программирования: от написания кода к аудиту
[[JUMP:57:39]]

Дэн Боне привел пример из практики: ИИ помог его другу обновить API в кодовой базе из миллиона строк за 10 секунд — задача, на которую у человека ушёл бы день [58:23]. Карлини согласен с мощью инструментов, но выражает обеспокоенность качеством [1:01:08].

Ключевые тезисы о кодинге:

*   Модели отлично справляются с паттернами («повтори это 1000 раз»), но пока слабы в глубокой архитектурной переработке [1:00:15].
*   Средняя модель обучается на «среднем программисте» из интернета, который редко пишет безопасный код [1:01:21].
*   Сложность обучения через подкрепление (RL) для безопасности: легко проверить, работает ли функция (5=6?), но крайне сложно автоматически проверить её на наличие уязвимостей памяти [1:04:01].
*   Карлини ожидает, что работа программиста сместится в сторону аудита: человек будет не писать код, а проверять то, что сгенерировал ИИ [1:06:29].

## 🎓 Советы студентам и взгляд в будущее
[[JUMP:1:10:36]]

Николас Карлини уверен, что основы Computer Science (ассемблер, устройство ОС, компиляторы) останутся важными даже в мире «программирования на английском» [1:10:48]. Знание того, как работает «железо» (например, ветвление в CUDA), необходимо для создания действительно быстрых систем, чего ИИ пока не может обеспечить в одиночку [1:12:06].

Его главный жизненный совет: «Прячьте свои предубеждения» [1:15:20].

*   Карлини признаётся, что ему не нравится подход обучения через предсказание следующего токена — он кажется ему «неправильным» путём к интеллекту [1:14:53].
*   Однако, поскольку этот метод эмпирически работает и люди его используют, исследователь обязан заниматься его безопасностью [1:15:48].
*   Нужно работать над тем, что важно для мира сейчас, независимо от ваших симпатий к конкретной технологии [1:16:14].