Ричард Джанг из Adobe: «Текст — слишком громоздкий инструмент для творчества»

В современном мире генеративный ИИ для изображений перестал быть просто лабораторным курьезом и превратился в мощную индустрию. Однако бурный рост технологий породил комплекс проблем: от трудностей в управлении визуальным результатом до вопросов этики и авторского права. Ричард Джанг, старший научный сотрудник Adobe Research, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI, подробно разбирает структуру этой «экосистемы» и технические решения, которые призваны сделать ИИ более контролируемым, прозрачным и справедливым.

🎨 Создатели: От «черного ящика» к точному контролю 2:44

В центре экосистемы визуального ИИ находятся создатели контента. Долгое время главной проблемой генеративных моделей было низкое визуальное качество, вызванное отсутствием адекватных функций потерь (loss functions) . Традиционные метрики, такие как L2 (евклидово расстояние), сравнивали изображения попиксельно, что не соответствовало человеческому восприятию. По словам Джанга, если сдвинуть вертикальную линию на один пиксель, человек не заметит разницы, но для метрики L2 это будет огромным расхождением .

Для решения этой проблемы Джанг разработал метрику L-PIPS (Learned Perceptual Image Patch Similarity). Ключевые аспекты исследования:

Датасет суждений: Было собрано около полумиллиона оценок пользователей, которые выбирали, какое из двух искаженных изображений ближе к оригиналу .
Архитектура против глубины: Выяснилось, что корреляция с человеческим восприятием растет до уровня архитектур типа AlexNet (около 7 слоев), но начинает падать в более глубоких сетях, таких как ResNet-150 . Джанг в шутку отмечает, что человеческий мозг тоже имеет примерно семь слоев обработки, что может объяснять этот феномен .
Роль в современных моделях: Хотя диффузионные модели (например, Stable Diffusion) обучаются по L2, метрика L-PIPS критически важна на этапе сжатия в автоэнкодерах, которые позволяют ИИ работать с изображениями высокого разрешения .

Второй вызов для создателей — управляемость. Джанг утверждает, что «текст — довольно громоздкий инструмент для многих операций» . Идея «картинка стоит тысячи слов» разбивается о лимиты токенов (например, 76 в Dolly 2), поэтому исследователь работает над «крючками» (hooks) для взаимодействия :

Sketching: использование набросков как входных данных .
Style Transfer: применение пользовательских репозиториев стилей .
Customization: добавление в модель личных объектов (своего питомца или машины) с помощью таких методов, как Custom Diffusion .

🕵️ Потребители: Дилемма дипфейков и цифровая криминалистика 21:52

Для потребителей контента главной задачей является возможность отличить реальность от синтетики. Ричард Джанг предлагает многоуровневый подход: происхождение (provenance), детектирование и образование .

В вопросе происхождения Джанг ссылается на инициативу Content Authenticity Initiative (CAI), которая разрабатывает открытые стандарты метаданных . Это своего рода «этикетка состава» для медиафайлов. По мнению Джанга, если стандарт станет массовым, отсутствие метаданных само по себе станет сигналом подозрительности .

В области детектирования Adobe Research применяет дата-центричный подход:

Обобщаемость: Исследователи обучали детектор на одном типе нейросетей (например, ProGAN) и проверяли его на новых, еще не существовавших на тот момент методах (StyleGAN 2, 3 и т.д.) .
Секретный сигнал: Удивительным открытием стало то, что даже при сильном размытии или сжатии (JPEG) производительность детектора остается близкой к 100% . Это означает, что ИИ-артефакты — это не только высокочастотный «шум», но и структурные особенности на всех масштабах изображения .

Джанг признает, что это «игра в кошки-мышки», но подчеркивает: «Кот может быть очень, очень большим и мощным» .

🤝 Контрибьюторы: Авторское право и право на забвение 36:21

Третья сторона экосистемы — те, на чьих данных обучаются модели. Джанг считает критически важным, чтобы участники процесса получали признание и имели возможность управлять своим вкладом.

Атрибуция данных

Задача состоит в том, чтобы определить, какие именно изображения из обучающей выборки (миллиарды файлов) больше всего повлияли на конкретный сгенерированный результат . Поскольку обучать модель заново для каждого теста невозможно (нужно 2 в степени N комбинаций), команда Джанга использовала метод «кастомизации как основы» . Обучив 18 000 малых моделей на конкретных объектах, они создали базу пар «обучающее изображение — результат», что позволило построить систему атрибуции на основе контрастивного обучения .

Концептуальная абляция (Concept Ablation)

Это метод «хирургического вмешательства» в веса нейросети для удаления определенных концептов (например, стиля конкретного живущего художника или лицензионных персонажей, таких как Star Wars), не затрагивая всё остальное .

Как это работает: Вместо того чтобы переучивать модель с нуля за огромные деньги, сеть заставляют «переписать» саму себя. Например, при запросе «в стиле Ван Гога» модель обучают выдавать результат, идентичный запросу «просто картина» .
Скорость: Процесс удаления одного концепта занимает всего около 5 минут .
Риски: По словам Джанга, при удалении тысяч концептов качество базовой модели может начать деградировать, поэтому метод эффективен как промежуточное решение между масштабными циклами переобучения .

Джанг резюмирует, что такой подход делает «право на опт-аут» (отказ от участия в обучении) технически осуществимым и масштабируемым в современной среде генеративного ИИ .