Tree-Ring Watermarks: невидимая защита AI-изображений от Янника Килчера

Tree-Ring Watermarks: как скрыть цифровые отпечатки в генеративных моделях 0:00

Исследователи из Мэрилендского университета представили новый метод маркировки изображений, генерируемых диффузионными моделями — Tree-Ring Watermarks. В отличие от существующих подходов, которые изменяют уже готовое изображение (постобработка), данная технология внедряет невидимый сигнал на самом раннем этапе — в исходный шум (latent space) модели. Такой подход делает «водяной знак» практически невидимым для человека и невероятно устойчивым к любым попыткам его удаления или искажения.

Принцип работы: «магия» обратного диффузионного процесса 4:16

Чтобы понять суть метода, важно вспомнить, как функционируют диффузионные модели:

Прямой процесс: Модель берет реальное изображение и шаг за шагом добавляет к нему шум (гауссовский), пока оно не превращается в чисто случайный шум.
Обратный процесс: Нейронная сеть учится «удалять» шум, шаг за шагом восстанавливая четкое изображение из случайного «шумового зерна».

Метод Tree-Ring Watermarks работает на уровне этого «зерна». Вместо того чтобы просто подавать случайный шум, разработчики вносят в него уникальную сигнатуру. Поскольку модель является детерминированной функцией, эта сигнатура «прорастает» сквозь весь процесс генерации, становясь «генетическим кодом» итогового изображения.

Технология внедрения: манипуляции в пространстве Фурье 18:33

Авторы используют преобразование Фурье для внедрения ключа, так как оно обладает свойствами, которые делают водяной знак устойчивым к манипуляциям с картинкой:

Концентрические кольца: Ключ представляет собой паттерн из колец (значений) в пространстве Фурье.
Инвариантность: По словам ведущего канала Янника Килчера, благодаря этому методу «водяной знак» сохраняется даже после поворота изображения, его сжатия, изменения масштаба или коррекции цветов (color jitter).

Верификация: кто может прочитать отпечаток? 24:35

Главное ограничение, о котором предупреждают авторы, — верификация доступна только владельцу модели. Поскольку для «чтения» водяного знака необходимо выполнить процесс инверсии (вернуть готовое изображение обратно в «шумовое зерно»), требуются точные веса модели.

Процесс проверки: Если изображение было создано моделью, при инверсии мы обнаружим тот самый паттерн колец в пространстве Фурье.
Безопасность: Янник Килчер подчеркивает: поскольку никто, кроме владельца, не обладает весами модели, злоумышленники не могут легко удалить или подделать этот «отпечаток», даже если знают о его существовании.

Эффективность и ограничения 31:37

Эксперименты показывают, что метод Tree-Ring Watermarks демонстрирует значительно более высокую устойчивость к попыткам удаления по сравнению с традиционными методами. Несмотря на то что изменение входного шума незначительно модифицирует итоговое распределение (что можно отследить по FID-метке), качество генерации остается высоким и визуально неотличимым от обычных результатов.

На текущий момент исследователи не до конца понимают, как масштабировать количество ключей — то есть сколько именно разных «водяных знаков» можно одновременно «вшить» в одну модель, сохраняя их различимость при сильных атаках. Тем не менее, Янник Килчер называет этот подход «инженерным изяществом», демонстрирующим, что для создания прорывных методов в AI не всегда нужны огромные вычислительные мощности — достаточно нестандартного взгляда на математику диффузионных процессов.