Том Голдштейн: «Водяной знак в тексте почти невозможно удалить»

🛡️ Безопасность и борьба с плагиатом: как защитить контент в эпоху нейросетей 0:38

Генеративные модели, такие как ChatGPT, стали мощным инструментом для создания текстов и изображений, но их развитие породило новые вызовы в области безопасности и этики. Том Голдштейн, исследователь в области компьютерных наук и доцент Мэрилендского университета, изучает способы защиты от вредоносного использования ИИ, включая дезинформацию и утечки данных. В интервью для The TWIML AI Podcast эксперт рассказал о своей работе над системами «водяных знаков» для текстовых моделей и анализе непреднамеренного копирования контента нейросетями.

💧 Технология «водяных знаков» для больших языковых моделей 9:55

По мнению Голдштейна, одной из главных угроз является использование чат-ботов для массовых манипуляций — например, для создания «армии» ботов в социальных сетях, распространяющих теории заговора или участвующих в социальных инженериях. Для борьбы с этим предлагается метод «водяных знаков», который позволяет отличить сгенерированный ИИ текст от написанного человеком.

Как это работает:

Разделение словаря: В процессе генерации текста каждое возможное слово из словаря модели (обычно около 50 000 токенов) псевдослучайным образом делится на две группы: «зеленый список» (разрешенные/предпочтительные) и «красный список» (нежелательные).
Стимулы для модели: Модель получает небольшое вознаграждение, если выбирает слово из «зеленого списка». Человеческий текст, написанный без таких стимулов, будет содержать примерно равное количество слов из обоих списков (50/50).
Статистическое обнаружение: Если в тексте наблюдается статистически значимый перекос в сторону слов из «зеленого списка», с высокой долей вероятности можно утверждать, что текст создан ИИ.

Этот метод работает без необходимости доступа к параметрам самой модели, что делает его применимым к проприетарным (закрытым) системам. Важно отметить, что при генерации текста в ситуациях, где модель «уверена» в выборе (например, фраза «Барак Обама»), влияние водяного знака минимально и не искажает смысл.

🚫 Можно ли удалить «водяной знак»? 24:45

Многие пользователи скептически относятся к эффективности защиты, полагая, что нейросети можно легко переписать или прогнать через суммаризатор, чтобы «стереть» метку. Голдштейн отмечает, что это не так просто:

Чувствительность метода: Детектор способен обнаружить водяной знак даже в фрагменте из 24 слов с высокой степенью уверенности.
Особенности суммаризаторов: Популярные проприетарные инструменты часто переиспользуют фрагменты исходного текста, что сохраняет сигнатуру водяного знака.
Деградация качества: Попытки использовать открытые модели (например, T5) для «очистки» текста от водяных знаков часто приводят к заметному ухудшению качества самого текста, так как современные open-source решения пока уступают закрытым гигантам.

Тем не менее, исследователь признает, что «водяной знак» не является абсолютно невосприимчивым к атакам — например, существуют так называемые «эмодзи-атаки», при которых вставка специальных символов между словами ломает логику генерации списков.

🖼️ Случайное копирование данных в моделях диффузии 43:42

Помимо текстов, Голдштейн исследует утечки данных в генеративных моделях изображений, таких как Stable Diffusion. В отличие от работ Николаса Карлини, сфокусированных на преднамеренном извлечении данных, работа Голдштейна изучает, когда модель начинает «цитировать» обучающую выборку случайно.

Исследователи разработали детектор частичного копирования, который ищет совпадения объектов или фонов. В ходе экспериментов выяснилось:

Поведение Stable Diffusion: Модель может воспроизводить пиксели из обучающего набора в 2% случаев.
Масштабируемость: Анализ 2 миллиардов изображений из набора LAION-5B представляет огромную инженерную сложность. В процессе работы над этим проектом университетская команда даже случайно перегрузила DNS-сервер кампуса, отправляя слишком много запросов.
Изменение приоритетов: Работа с нейросетями за последние три года кардинально изменила требования к «железу»: если раньше ученым требовались только вычислительные мощности (флопсы), то теперь критически важными стали объем видеопамяти и системы хранения огромных наборов данных.