Николас Карлини: «Языковые модели — это не волшебство, а вызов безопасности»

Безопасность ИИ: взгляд Николаса Карлини 1:10

Николас Карлини, один из ведущих исследователей безопасности машинного обучения в Google DeepMind, обсуждает текущее состояние защиты языковых моделей и философские вопросы их «разумности». Основной сюжет беседы вращается вокруг того, что современные системы ИИ остаются уязвимыми, а разработка надежных методов защиты отстает от скорости внедрения новых технологий.

🛡️ Будущее безопасности ИИ 3:04

Карлини отмечает, что в классической кибербезопасности не существует «идеальной защиты»: если злоумышленник поставит цель взломать конкретный компьютер, у него есть высокие шансы на успех. В сфере машинного обучения ситуация еще более критична: даже случайный пользователь может легко найти в открытом доступе инструменты для выполнения «арбитрарно плохих» действий с помощью ИИ.

Основные тезисы о безопасности:

Отсутствие совершенства: Объективная метрика надежности моделей не демонстрирует значительного прогресса за последние 4–5 лет, что делает достижение полной устойчивости в ближайшем будущем маловероятным.
Дизайн систем: Поскольку сами модели остаются уязвимыми, инженерам следует проектировать системы так, чтобы они оставались защищенными даже при условии, что модель выдаст ошибочный или скомпрометированный результат.
Проблема «белых пятен»: Атакующему достаточно найти одну уязвимость, тогда как защищающемуся нужно закрыть их все. В ИИ ситуация усугубляется тем, что постоянно открываются новые классы атак, о которых исследователи ранее даже не подозревали.

♟️ Разумность и «игра в шахматы» 8:06

Карлини подробно разбирает свой нашумевший эксперимент по игре моделей в шахматы. Главный вывод заключается в том, что языковые модели, обученные только предсказанию следующего токена на последовательностях ходов, демонстрируют способность моделировать состояние мира, не обладая при этом явным знанием правил игры.

Суррогатное понимание: Модели способны делать валидные и качественные ходы, что подразумевает наличие внутренней репрезентации доски.
Проблема «игры на победу»: Исследователь подчеркивает, что модели не были «обучены выигрывать» — они обучены имитировать то, что видели в данных. Если подать модели последовательность ходов любителей с низким рейтингом, она будет играть как любитель.
Человеческая предвзятость: Существует своего рода «человеческий шовинизм», когда мы отказываем моделям в статусе «разумных», опираясь на разные определения этого понятия. Карлини предлагает оценивать только вход-выходное поведение системы.

💻 Продуктивность и использование LLM 44:36

Карлини открыто заявляет, что использует языковые модели в своей работе, увеличивая собственную продуктивность в программировании примерно на 50%.

Инструментарий, а не чудо: Для исследователя ИИ — это способ избавиться от рутины, написания шаблонного кода или изучения синтаксиса новых языков. Важно, что Карлини обладает достаточными компетенциями, чтобы критически проверять выводимый код.
Угроза некомпетентности: Основной риск заключается в том, что пользователи, не имеющие опыта в разработке, могут доверять коду ИИ, который содержит критические уязвимости (например, SQL-инъекции).
Верификация: Карлини утверждает, что проверка кода, написанного LLM, мало отличается от проверки кода со Stack Overflow — он никогда не копирует его бездумно, всегда предполагая, что там могут быть ошибки.

🧩 Кража моделей и математика атак 1:09:57

Обсуждая свою работу «Stealing part of a production language model», Карлини описывает, как через обычный API можно извлечь параметры последнего слоя модели.

Практическая значимость: В ходе эксперимента исследователям удалось подтвердить размер моделей GPT-3 Ada и Babbage, которые компания OpenAI официально не раскрывала.
Метод: Атака базируется на линейной алгебре, в частности на сингулярном разложении (SVD). Поскольку последний слой модели — это линейное преобразование, векторы выхода лежат в подпространстве меньшей размерности.
Координация: Исследование проводилось в рамках ответственного раскрытия (responsible disclosure), по согласованию с юристами Google и OpenAI, что позволило компаниям своевременно устранить уязвимость.