Николас Карлини: «Языковые модели — это не волшебство, а вызов безопасности»

Machine Learning Street Talk 30,7 тыс. 1 ч 21 мин 3 мин 25.01.2025
Главное

Безопасность ИИ: взгляд Николаса Карлини 1:10

Николас Карлини, один из ведущих исследователей безопасности машинного обучения в Google DeepMind, обсуждает текущее состояние защиты языковых моделей и философские вопросы их «разумности». Основной сюжет беседы вращается вокруг того, что современные системы ИИ остаются уязвимыми, а разработка надежных методов защиты отстает от скорости внедрения новых технологий.

🛡️ Будущее безопасности ИИ 3:04

Карлини отмечает, что в классической кибербезопасности не существует «идеальной защиты»: если злоумышленник поставит цель взломать конкретный компьютер, у него есть высокие шансы на успех. В сфере машинного обучения ситуация еще более критична: даже случайный пользователь может легко найти в открытом доступе инструменты для выполнения «арбитрарно плохих» действий с помощью ИИ.

Основные тезисы о безопасности:

♟️ Разумность и «игра в шахматы» 8:06

Карлини подробно разбирает свой нашумевший эксперимент по игре моделей в шахматы. Главный вывод заключается в том, что языковые модели, обученные только предсказанию следующего токена на последовательностях ходов, демонстрируют способность моделировать состояние мира, не обладая при этом явным знанием правил игры.

💻 Продуктивность и использование LLM 44:36

Карлини открыто заявляет, что использует языковые модели в своей работе, увеличивая собственную продуктивность в программировании примерно на 50%.

🧩 Кража моделей и математика атак 1:09:57

Обсуждая свою работу «Stealing part of a production language model», Карлини описывает, как через обычный API можно извлечь параметры последнего слоя модели.

💬 Цитаты

«Мы просто полагаемся на тот факт, что правительство, вероятно, не хочет, чтобы с вашим конкретным компьютером случилось что-то плохое.»

Николас Карлини 03:43

«Языковые модели — только семь лет значимого прогресса. Прогнозировать на пять лет вперед — это почти удвоить этот срок.»

Николас Карлини 07:40

«У нас есть странная форма человеческого шовинизма вокруг абстрактности нашего понимания.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Model Stealing
Тип атаки, при которой злоумышленник пытается воссоздать или украсть копию модели машинного обучения, делая к ней множество запросов.
Adversarial Examples
Специально созданные входные данные, призванные вызвать ошибку в работе модели машинного обучения.
Responsible Disclosure
Практика уведомления разработчиков об уязвимости до её публичного разглашения, чтобы дать время на исправление.
SVD (Singular Value Decomposition)
Метод линейной алгебры, используемый для разложения матриц, примененный исследователями для кражи весов модели.
📊 Цифры
🗓 Хронология
  1. 2016 Флориан Трамер и коллеги опубликовали первые работы по краже моделей.
  2. 2020 Карлини с коллегами опубликовали теоретический метод кражи точных параметров модели.
  3. Июль 2025 Публикация работы Карлини по краже части производственной языковой модели.
⚖️ Другая сторона
Искусственный интеллект Nicholas Carlini Google DeepMind OpenAI Adversarial Machine Learning Model Stealing