Ричард Джанг из Adobe: «Текст — слишком громоздкий инструмент для творчества»

The TWIML AI Podcast 701 51 мин 4 мин 20.11.2023
Главное

В современном мире генеративный ИИ для изображений перестал быть просто лабораторным курьезом и превратился в мощную индустрию. Однако бурный рост технологий породил комплекс проблем: от трудностей в управлении визуальным результатом до вопросов этики и авторского права. Ричард Джанг, старший научный сотрудник Adobe Research, в беседе с Сэмом Чаррингтоном на подкасте TWIML AI, подробно разбирает структуру этой «экосистемы» и технические решения, которые призваны сделать ИИ более контролируемым, прозрачным и справедливым.

🎨 Создатели: От «черного ящика» к точному контролю 2:44

В центре экосистемы визуального ИИ находятся создатели контента. Долгое время главной проблемой генеративных моделей было низкое визуальное качество, вызванное отсутствием адекватных функций потерь (loss functions) . Традиционные метрики, такие как L2 (евклидово расстояние), сравнивали изображения попиксельно, что не соответствовало человеческому восприятию. По словам Джанга, если сдвинуть вертикальную линию на один пиксель, человек не заметит разницы, но для метрики L2 это будет огромным расхождением .

Для решения этой проблемы Джанг разработал метрику L-PIPS (Learned Perceptual Image Patch Similarity). Ключевые аспекты исследования:

Второй вызов для создателей — управляемость. Джанг утверждает, что «текст — довольно громоздкий инструмент для многих операций» . Идея «картинка стоит тысячи слов» разбивается о лимиты токенов (например, 76 в Dolly 2), поэтому исследователь работает над «крючками» (hooks) для взаимодействия :

  1. Sketching: использование набросков как входных данных .
  2. Style Transfer: применение пользовательских репозиториев стилей .
  3. Customization: добавление в модель личных объектов (своего питомца или машины) с помощью таких методов, как Custom Diffusion .

🕵️ Потребители: Дилемма дипфейков и цифровая криминалистика 21:52

Для потребителей контента главной задачей является возможность отличить реальность от синтетики. Ричард Джанг предлагает многоуровневый подход: происхождение (provenance), детектирование и образование .

В вопросе происхождения Джанг ссылается на инициативу Content Authenticity Initiative (CAI), которая разрабатывает открытые стандарты метаданных . Это своего рода «этикетка состава» для медиафайлов. По мнению Джанга, если стандарт станет массовым, отсутствие метаданных само по себе станет сигналом подозрительности .

В области детектирования Adobe Research применяет дата-центричный подход:

Джанг признает, что это «игра в кошки-мышки», но подчеркивает: «Кот может быть очень, очень большим и мощным» .

🤝 Контрибьюторы: Авторское право и право на забвение 36:21

Третья сторона экосистемы — те, на чьих данных обучаются модели. Джанг считает критически важным, чтобы участники процесса получали признание и имели возможность управлять своим вкладом.

Атрибуция данных

Задача состоит в том, чтобы определить, какие именно изображения из обучающей выборки (миллиарды файлов) больше всего повлияли на конкретный сгенерированный результат . Поскольку обучать модель заново для каждого теста невозможно (нужно 2 в степени N комбинаций), команда Джанга использовала метод «кастомизации как основы» . Обучив 18 000 малых моделей на конкретных объектах, они создали базу пар «обучающее изображение — результат», что позволило построить систему атрибуции на основе контрастивного обучения .

Концептуальная абляция (Concept Ablation)

Это метод «хирургического вмешательства» в веса нейросети для удаления определенных концептов (например, стиля конкретного живущего художника или лицензионных персонажей, таких как Star Wars), не затрагивая всё остальное .

Джанг резюмирует, что такой подход делает «право на опт-аут» (отказ от участия в обучении) технически осуществимым и масштабируемым в современной среде генеративного ИИ .

💬 Цитаты

«Текст в некотором смысле для многих операций будет очень громоздким. Нам нужен целый спектр крючков для взаимодействия с системой.»

Ричард Джанг 19:23

«Это игра в кошки-мышки, но кот может быть очень, очень большим.»

Ричард Джанг 35:15
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
L-PIPS
Метрика подобия изображений, основанная на глубоком обучении и человеческом восприятии.
Concept Ablation
Метод точечного удаления информации из весов нейросети (например, имен художников).
Data Attribution
Процесс идентификации конкретных обучающих данных, повлиявших на итоговую генерацию ИИ.
📊 Цифры
🗓 Хронология
  1. 2012 Выход статьи AlexNet, начало бума глубокого обучения в компьютерном зрении.
  2. 2019-2020 Создание коалиции Content Authenticity Initiative (CAI).
  3. 2023 Публикация работ по атрибуции данных и абляции концептов на конференции ICCV.
⚖️ Другая сторона
Искусственный интеллект Richard Zhang Adobe Research L-PIPS дипфейки Stable Diffusion