Том Голдштейн: «Водяной знак в тексте почти невозможно удалить»

The TWIML AI Podcast 1,4 тыс. 55 мин 3 мин 20.03.2023
Главное

🛡️ Безопасность и борьба с плагиатом: как защитить контент в эпоху нейросетей 0:38

Генеративные модели, такие как ChatGPT, стали мощным инструментом для создания текстов и изображений, но их развитие породило новые вызовы в области безопасности и этики. Том Голдштейн, исследователь в области компьютерных наук и доцент Мэрилендского университета, изучает способы защиты от вредоносного использования ИИ, включая дезинформацию и утечки данных. В интервью для The TWIML AI Podcast эксперт рассказал о своей работе над системами «водяных знаков» для текстовых моделей и анализе непреднамеренного копирования контента нейросетями.

💧 Технология «водяных знаков» для больших языковых моделей 9:55

По мнению Голдштейна, одной из главных угроз является использование чат-ботов для массовых манипуляций — например, для создания «армии» ботов в социальных сетях, распространяющих теории заговора или участвующих в социальных инженериях. Для борьбы с этим предлагается метод «водяных знаков», который позволяет отличить сгенерированный ИИ текст от написанного человеком.

Как это работает:

Этот метод работает без необходимости доступа к параметрам самой модели, что делает его применимым к проприетарным (закрытым) системам. Важно отметить, что при генерации текста в ситуациях, где модель «уверена» в выборе (например, фраза «Барак Обама»), влияние водяного знака минимально и не искажает смысл.

🚫 Можно ли удалить «водяной знак»? 24:45

Многие пользователи скептически относятся к эффективности защиты, полагая, что нейросети можно легко переписать или прогнать через суммаризатор, чтобы «стереть» метку. Голдштейн отмечает, что это не так просто:

Тем не менее, исследователь признает, что «водяной знак» не является абсолютно невосприимчивым к атакам — например, существуют так называемые «эмодзи-атаки», при которых вставка специальных символов между словами ломает логику генерации списков.

🖼️ Случайное копирование данных в моделях диффузии 43:42

Помимо текстов, Голдштейн исследует утечки данных в генеративных моделях изображений, таких как Stable Diffusion. В отличие от работ Николаса Карлини, сфокусированных на преднамеренном извлечении данных, работа Голдштейна изучает, когда модель начинает «цитировать» обучающую выборку случайно.

Исследователи разработали детектор частичного копирования, который ищет совпадения объектов или фонов. В ходе экспериментов выяснилось:

  1. Поведение Stable Diffusion: Модель может воспроизводить пиксели из обучающего набора в 2% случаев.
  2. Масштабируемость: Анализ 2 миллиардов изображений из набора LAION-5B представляет огромную инженерную сложность. В процессе работы над этим проектом университетская команда даже случайно перегрузила DNS-сервер кампуса, отправляя слишком много запросов.
  3. Изменение приоритетов: Работа с нейросетями за последние три года кардинально изменила требования к «железу»: если раньше ученым требовались только вычислительные мощности (флопсы), то теперь критически важными стали объем видеопамяти и системы хранения огромных наборов данных.
💬 Цитаты

«Там, где модель очень уверена в выборе, стимулы, которые мы применяем, не меняют поведение модели вообще.»

Том Голдштейн 20:02

«Это всегда возможно — удалить водяной знак. Вопрос не в том, удаляем ли мы его, а в том, насколько деградирует качество текста.»

Том Голдштейн 31:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Водяной знак (Watermark)
Метод внедрения незаметных статистических искажений в текст для его последующей идентификации как сгенерированного ИИ.
Токен
Минимальная единица текста, которой оперирует модель (слово или часть слова).
Диффузионная модель
Тип генеративного ИИ, создающий изображения путем постепенного удаления случайного шума.
Энтропия
Мера неопределенности: высокая энтропия означает, что у модели много вариантов выбора слов, низкая — выбор почти предопределен.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Tom Goldstein Large Language Models Stable Diffusion AI Safety Watermarking