Николас Карлини: «Мы обречены жить в мире уязвимых ИИ»

Machine Learning Street Talk 30,7 тыс. 1 ч 21 мин 2 мин 25.01.2025
Главное

Будущее ИИ-безопасности: Уязвимости, модели и «парадоксы» Николаса Карлини 3:04

В мире машинного обучения Николас Карлини (исследователь Google DeepMind) занимает уникальную нишу: он тот, кто «ломает» модели, чтобы понять их уязвимости. В беседе с каналом Machine Learning Street Talk он обсуждает, почему мы, вероятно, обречены жить в мире уязвимых систем, и почему «взлом» языковых моделей — это не только вопрос безопасности, но и лучший способ проверить, на что они способны на самом деле.

🛡️ Уязвимости как новая норма 3:18

По мнению Карлини, поиск идеальной безопасности — недостижимая цель. В традиционном софте мы привыкли полагаться на то, что государственные структуры не будут атаковать конкретного пользователя, но в сфере ML «среднестатистический человек» может без труда найти на GitHub код, позволяющий заставить модель совершать произвольные вредоносные действия.

Основные тезисы о безопасности:

♟️ Парадокс «шахматного» интеллекта 8:18

Один из самых ярких примеров Карлини — способность языковых моделей играть в шахматы. Несмотря на отсутствие прямого обучения правилам, модели после определенного уровня обучения начинают демонстрировать поразительное понимание доски.

🛠️ Инструменты: больше, чем просто чат 44:36

Для Карлини LLM — это инструмент, повышающий производительность программирования примерно на 50%. Однако он делает важную оговорку: это работает только для тех, кто уже понимает фундаментальные основы.

🔍 «Кража» моделей: от теории к практике 1:10:10

Один из наиболее любопытных проектов Карлини — исследование того, можно ли украсть часть архитектуры большой языковой модели через обычные API-запросы.

💬 Цитаты

«Если человек хочет, чтобы на вашем компьютере произошло что-то плохое, он победит. В ML-системах «средний» человек может добиться успеха почти всегда.»

Николас Карлини 03:59

«Модели — это отражение вас. Если вы хороший шахматист, модель отвечает как хороший шахматист.»

Николас Карлини 13:49

«Если модель дает правильный ответ каждый раз, я не уверен, что мне важно, рассуждала ли она логически или использовала таблицу поиска.»

Николас Карлини 21:48
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Model Stealing
Атака, позволяющая злоумышленнику восстановить архитектуру или параметры модели через API.
Adversarial Examples
Входные данные, специально измененные так, чтобы заставить модель совершить ошибку.
Responsible Disclosure
Процесс уведомления разработчика об уязвимости с последующим сроком (обычно 90 дней) на ее исправление перед публичным раскрытием.
📊 Цифры
🗓 Хронология
  1. 2016 Начало исследований в области кражи простых линейных моделей через API.
  2. 2020 Публикация работы Карлини по теоретической краже точных копий моделей.
  3. 2024 Публикация работы по краже части реальной производственной модели (GPT-3.5).
⚖️ Другая сторона
Искусственный интеллект Nicholas Carlini Google DeepMind LLM security Adversarial Machine Learning