# Николас Карлини: «Языковые модели — это не волшебство, а вызов безопасности»

Источник: https://www.youtube.com/watch?v=n4ipEJ6uJ44
Канал: Machine Learning Street Talk
Опубликовано: 25.01.2025

---

## Безопасность ИИ: взгляд Николаса Карлини
[[JUMP:1:10]]

Николас Карлини, один из ведущих исследователей безопасности машинного обучения в Google DeepMind, обсуждает текущее состояние защиты языковых моделей и философские вопросы их «разумности». Основной сюжет беседы вращается вокруг того, что современные системы ИИ остаются уязвимыми, а разработка надежных методов защиты отстает от скорости внедрения новых технологий.

### 🛡️ Будущее безопасности ИИ
[[JUMP:3:04]]

Карлини отмечает, что в классической кибербезопасности не существует «идеальной защиты»: если злоумышленник поставит цель взломать конкретный компьютер, у него есть высокие шансы на успех. В сфере машинного обучения ситуация еще более критична: даже случайный пользователь может легко найти в открытом доступе инструменты для выполнения «арбитрарно плохих» действий с помощью ИИ.

Основные тезисы о безопасности:

*   **Отсутствие совершенства:** Объективная метрика надежности моделей не демонстрирует значительного прогресса за последние 4–5 лет, что делает достижение полной устойчивости в ближайшем будущем маловероятным.
*   **Дизайн систем:** Поскольку сами модели остаются уязвимыми, инженерам следует проектировать системы так, чтобы они оставались защищенными даже при условии, что модель выдаст ошибочный или скомпрометированный результат.
*   **Проблема «белых пятен»:** Атакующему достаточно найти одну уязвимость, тогда как защищающемуся нужно закрыть их все. В ИИ ситуация усугубляется тем, что постоянно открываются новые классы атак, о которых исследователи ранее даже не подозревали.

### ♟️ Разумность и «игра в шахматы»
[[JUMP:8:06]]

Карлини подробно разбирает свой нашумевший эксперимент по игре моделей в шахматы. Главный вывод заключается в том, что языковые модели, обученные только предсказанию следующего токена на последовательностях ходов, демонстрируют способность моделировать состояние мира, не обладая при этом явным знанием правил игры.

*   **Суррогатное понимание:** Модели способны делать валидные и качественные ходы, что подразумевает наличие внутренней репрезентации доски.
*   **Проблема «игры на победу»:** Исследователь подчеркивает, что модели не были «обучены выигрывать» — они обучены имитировать то, что видели в данных. Если подать модели последовательность ходов любителей с низким рейтингом, она будет играть как любитель.
*   **Человеческая предвзятость:** Существует своего рода «человеческий шовинизм», когда мы отказываем моделям в статусе «разумных», опираясь на разные определения этого понятия. Карлини предлагает оценивать только вход-выходное поведение системы.

### 💻 Продуктивность и использование LLM
[[JUMP:44:36]]

Карлини открыто заявляет, что использует языковые модели в своей работе, увеличивая собственную продуктивность в программировании примерно на 50%.

*   **Инструментарий, а не чудо:** Для исследователя ИИ — это способ избавиться от рутины, написания шаблонного кода или изучения синтаксиса новых языков. Важно, что Карлини обладает достаточными компетенциями, чтобы критически проверять выводимый код.
*   **Угроза некомпетентности:** Основной риск заключается в том, что пользователи, не имеющие опыта в разработке, могут доверять коду ИИ, который содержит критические уязвимости (например, SQL-инъекции).
*   **Верификация:** Карлини утверждает, что проверка кода, написанного LLM, мало отличается от проверки кода со Stack Overflow — он никогда не копирует его бездумно, всегда предполагая, что там могут быть ошибки.

### 🧩 Кража моделей и математика атак
[[JUMP:1:09:57]]

Обсуждая свою работу «Stealing part of a production language model», Карлини описывает, как через обычный API можно извлечь параметры последнего слоя модели.

*   **Практическая значимость:** В ходе эксперимента исследователям удалось подтвердить размер моделей GPT-3 Ada и Babbage, которые компания OpenAI официально не раскрывала.
*   **Метод:** Атака базируется на линейной алгебре, в частности на сингулярном разложении (SVD). Поскольку последний слой модели — это линейное преобразование, векторы выхода лежат в подпространстве меньшей размерности.
*   **Координация:** Исследование проводилось в рамках ответственного раскрытия (responsible disclosure), по согласованию с юристами Google и OpenAI, что позволило компаниям своевременно устранить уязвимость.