# Николас Карлини: «Мы обречены жить в мире уязвимых ИИ»

Источник: https://www.youtube.com/watch?v=n4ipEJ6uJ44
Канал: Machine Learning Street Talk
Опубликовано: 25.01.2025

---

## Будущее ИИ-безопасности: Уязвимости, модели и «парадоксы» Николаса Карлини
[[JUMP:3:04]]

В мире машинного обучения Николас Карлини (исследователь Google DeepMind) занимает уникальную нишу: он тот, кто «ломает» модели, чтобы понять их уязвимости. В беседе с каналом Machine Learning Street Talk он обсуждает, почему мы, вероятно, обречены жить в мире уязвимых систем, и почему «взлом» языковых моделей — это не только вопрос безопасности, но и лучший способ проверить, на что они способны на самом деле.

### 🛡️ Уязвимости как новая норма
[[JUMP:3:18]]

По мнению Карлини, поиск идеальной безопасности — недостижимая цель. В традиционном софте мы привыкли полагаться на то, что государственные структуры не будут атаковать конкретного пользователя, но в сфере ML «среднестатистический человек» может без труда найти на GitHub код, позволяющий заставить модель совершать произвольные вредоносные действия.

Основные тезисы о безопасности:

*   **Отсутствие совершенства:** Мы не добьемся полной устойчивости моделей в обозримом будущем.
*   **Новая парадигма:** Вместо попыток сделать сами модели «непробиваемыми», нам придется проектировать окружающие их системы так, чтобы даже ошибочное или вредоносное решение модели не приводило к катастрофическим последствиям.
*   **Сложность атак:** Нападающему достаточно найти один слабый угол, тогда как защитнику нужно «закрыть» их все. В ML ситуация осложняется тем, что постоянно открываются новые классы атак, о которых мы даже не подозревали.

### ♟️ Парадокс «шахматного» интеллекта
[[JUMP:8:18]]

Один из самых ярких примеров Карлини — способность языковых моделей играть в шахматы. Несмотря на отсутствие прямого обучения правилам, модели после определенного уровня обучения начинают демонстрировать поразительное понимание доски.

*   **Моделирование мира:** Карлини утверждает: если система делает валидные ходы в шахматах, она *в каком-то смысле* обязана внутри себя точно моделировать состояние «мира» (доски).
*   **Проблема «игры на победу»:** Модели не обучались выигрывать. Они обучались предсказывать следующий токен на основе данных, где люди часто совершают ошибки или играют в «странные» шахматы.
*   **Зависимость от промптера:** Модель — это отражение пользователя. Если вы «галактический мозг», использующий LLM для сложных задач, модель будет выдавать результат соответствующего уровня.

### 🛠️ Инструменты: больше, чем просто чат
[[JUMP:44:36]]

Для Карлини LLM — это инструмент, повышающий производительность программирования примерно на 50%. Однако он делает важную оговорку: это работает только для тех, кто уже понимает фундаментальные основы.

*   **Риск «ядовитого» кода:** Если модель пишет функцию шифрования или запрос к БД, она часто делает это с типичными ошибками (например, SQL-инъекции). Компетентный разработчик увидит баг и исправит его, а новичок — просто скопирует уязвимость в продукт.
*   **«Сверхспособность»:** Использование LLM сродни переходу от ассемблера к высокоуровневым языкам. Это не делает пользователя экспертом, но избавляет от рутины, позволяя сфокусироваться на самой задаче.

### 🔍 «Кража» моделей: от теории к практике
[[JUMP:1:10:10]]

Один из наиболее любопытных проектов Карлини — исследование того, можно ли украсть часть архитектуры большой языковой модели через обычные API-запросы.

*   **Реальные результаты:** В ходе эксперимента команда смогла восстановить размер модели и её последний слой для GPT-3.5, что до этого никогда не раскрывалось официально.
*   **Математический подход:** Используя сингулярное разложение (SVD), исследователи смогли вычислить параметры модели, опираясь лишь на линейную алгебру уровня бакалавриата.
*   **Responsible Disclosure:** Исследователи заранее договорились с OpenAI и Google о возможности проведения эксперимента, после чего компании закрыли уязвимость.