Янник Килхер о проблеме утечки данных из нейросетей: «Страшнее, чем кажется?»

Yannic Kilcher 20,1 тыс. 1 ч 3 мин 3 мин 26.12.2020
Главное

🔐 Уязвимость больших языковых моделей: как они «запоминают» приватные данные 0:00

Исследовательская работа, представленная международной группой академических институтов и корпораций, раскрывает фундаментальную проблему больших языковых моделей (LLM): способность «запоминать» и выдавать фрагменты обучающих данных. В видео, посвящённом разбору этой статьи, Янник Килхер анализирует, как через обычный «черный ящик» (black box access) можно извлечь verbatim-фрагменты данных, даже если они встречались в обучающей выборке всего несколько раз. Это исследование поднимает важные вопросы о безопасности и конфиденциальности пользовательских данных, используемых для обучения моделей.

🕵️‍♂️ Суть атаки и проблема эйдетического запоминания 7:39

Авторы исследования демонстрируют, что атака возможна даже при условии, что конкретная последовательность символов встречается в обучающем наборе всего один раз. Янник Килхер отмечает, что авторы вводят строгие определения для классификации этой проблемы:

По мнению Килхера, хотя авторы статьи намеренно создают тревожный тон, многие примеры извлеченных данных (например, корпоративные адреса или публичные контакты) на деле не несут той угрозы, которую им приписывают. Тем не менее он признает: если компания обучает модель на внутренних, чувствительных документах, риск утечки реален, особенно если данные дублируются в документах без должной очистки.

⚙️ Инструментарий и методика извлечения данных 26:57

Для извлечения данных исследователи применяют двухэтапный процесс, который Килхер считает довольно элегантным:

  1. Генерация кандидатов: Исследователи генерируют множество выходных данных из модели. Для повышения разнообразия они используют два приема:
    • Снижение температуры: Начинают с высокой «температуры» для исследования пространства, постепенно уменьшая её.
    • Кондиционирование на интернет-текстах: Используют в качестве промптов случайные фрагменты текста, найденные в сети, чтобы заставить модель продолжить их.
  2. Фильтрация: Использование метрик вероятности (перплексии) для определения наиболее вероятных (а значит, потенциально запомненных) последовательностей.

Килхер особо выделяет стратегию дифференциации: использование двух моделей для сравнения. Если обе модели считают текст очень вероятным — это «канонический» текст (например, MIT License), встречающийся везде. Если же целевая модель считает текст вероятным, а контрольная (или меньшая версия модели) — нет, то перед нами потенциальный «выброс» (outlier), который модель запомнила именно из-за своей уникальности.

📉 Влияние размера модели и «защита через дистилляцию» 37:35

Важный вывод видео касается взаимосвязи между размером модели и её способностью к запоминанию. Янник Килхер ссылается на исследования Сары Хукер (Sarah Hooker) о «лотерее весов». Суть в том, что модели выделяют часть своих весов для запоминания редких «выбросов» данных, которые не поддаются обобщению.

🧐 Итоги и личное мнение спикера 1:01:28

Янник Килхер подчеркивает, что, несмотря на пугающее название, результаты исследования выглядят скорее «обнадеживающими», чем катастрофическими. Основная часть запоминаемой информации — это либо неструктурированные случайные строки, либо данные, встречающиеся в специфических контекстах.

Он заключает:

  1. Проблема существует: Модели действительно могут «выплевывать» куски обучающих данных.
  2. Аудит — лучшее решение: Пока нет универсального способа предотвратить запоминание, аудит моделей остается наиболее эффективной стратегией защиты.
  3. Роль промпт-инженера: Автор видео иронично добавляет, что знание того, какой «магический» префикс подать модели, становится всё более ценным навыком.
💬 Цитаты

«Атака крутая, опасения обоснованы, но статья написана чуть более пугающе, чем кажется на самом деле.»

Янник Килхер 02:39

«Если модель обучена на приватных данных, вы должны беспокоиться, что она просто выдаст эти данные в конце.»

Янник Килхер 01:48
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Перплексия (Perplexity)
Метрика оценки качества языковой модели; чем она ниже, тем меньше модель «удивлена» текстом.
Дистилляция (Distillation)
Процесс переноса знаний из большой, сложной модели в модель меньшего размера.
Black Box access
Доступ к модели только через запросы (промпты), без возможности изучать её внутренние веса или архитектуру.
Verbatim
Дословное повторение фрагмента текста.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Large Language Models GPT-2 Memorization Data Extraction