Натаниэль Руис из Google: «DreamBooth способен научить ИИ узнавать вашу собаку по пяти фото»

The TWIML AI Podcast 675 48 мин 4 мин 25.09.2023
Главное

В новом эпизоде подкаста TWIML AI Сэм Черрингтон беседует с Натаниэлем Руисом, ученым-исследователем из Google, о прорывных методах персонализации генеративного ИИ. Разговор посвящен тому, как научить модели глубокого обучения интерпретировать уникальные объекты и стили пользователя, используя всего несколько примеров.

🎨 От борьбы с дипфейками к созиданию: путь Натаниэля Руиса 0:00

Натаниэль Руис начал свою карьеру с изучения уязвимостей нейросетей. Его ранние работы были посвящены состязательным атакам (adversarial attacks) на системы генерации лиц. Основная идея заключалась в том, чтобы накладывать на изображения невидимые для человека помехи, которые заставляли бы нейросети ошибаться при попытке создать дипфейк на основе этого фото .

По словам Руиса, в 2019 году эта область была ещё в зачатке, так как генеративные модели создавали изображения низкого качества. Однако сегодня, с расцветом мощных диффузионных моделей, защита цифровой идентичности стала крайне актуальной темой, что подтверждают работы лаборатории Александра Мадри в MIT .

Научный интерес Руиса плавно сместился от защиты к расширению возможностей моделей. Его диссертация в Бостонском университете была посвящена симуляции изображений и видео для обучения алгоритмов . В конечном итоге это привело его в Google, где он занялся проблемой субъективно-ориентированной генерации (subject-driven generation).

🐶 DreamBooth: как ИИ запоминает вашего питомца 5:15

Флагманским проектом Руиса стал DreamBooth — алгоритм, позволяющий «встроить» конкретный объект (например, вашу собаку по кличке Спарки) в готовую диффузионную модель, такую как Imagen или Stable Diffusion .

Механика работы DreamBooth

Традиционные модели умеют генерировать «собаку вообще», но не способны воссоздать конкретное животное с его уникальным окрасом и чертами. Руис объясняет процесс персонализации следующим образом:

  1. Уникальный токен: Модели сопоставляется редкая последовательность символов (например, специально сгенерированный идентификатор «V»), которая ранее не имела для нейросети смысла .
  2. Дообучение (Fine-tuning): Модель тренируется на 3–5 фотографиях объекта с текстовым описанием «фото [V] собаки» .
  3. Локализация: Благодаря указанию класса (собака) ИИ понимает, на какой области изображения сосредоточено внимание, и связывает уникальные черты объекта с новым токеном .

Почему это работает?

Гость отмечает, что успех DreamBooth стал неожиданностью даже для разработчиков из-за своей простоты. Модель не просто переобучается, а «вытягивает» свои обширные предварительные знания о мире, чтобы правильно интерпретировать детали нового объекта в разных контекстах — например, Спарки на фоне Эйфелевой башни . Одной из гипотез устойчивости диффузионных моделей к переобучению является сам процесс диффузии: постоянное зашумление и расшумление мешает нейросети просто «зазубрить» пиксели .

🧪 Проблемы «языкового дрейфа» и сохранение стилей 20:11

Одной из главных трудностей при персонализации является риск забывания моделью общего понятия. Если переобучить сеть на фотографиях конкретного кота, используя только слово «кот», она может начать генерировать этого кота всегда, даже когда её просят создать «группу из шести разных кошек» . Это явление Руис называет «языковым дрейфом».

Для решения этой проблемы была разработана функция потерь для сохранения априорных знаний (Prior Preservation Loss):

⚡ HyperDreamBooth и экстремальное сжатие весов 35:14

Несмотря на успех DreamBooth, у него были недостатки: большой размер файлов (около гигабайта на объект) и медленная скорость обучения (до 5–10 минут) . В ответ на это Руис и его коллеги представили HyperDreamBooth.

Ключевые инновации HyperDreamBooth:

Натаниэль подчеркивает, что такие малые изменения весов позволяют сохранить «prior» модели: ИИ не разучивается рисовать в разных стилях, при этом максимально точно воспроизводя черты лица человека .

📚 Выход за пределы изображений: проект Platypus 45:15

Хотя Руис специализируется на компьютерном зрении, он принял участие в разработке Platypus — набора данных и семейства моделей для обучения текстовых LLM (Large Language Models) .

Проект доказал, что для качественного улучшения ИИ не всегда нужны гигантские ресурсы:

По мнению Руиса, это подтверждает общий тренд: современные модели уже обладают колоссальными скрытыми знаниями, и задача ученых — научиться эффективно «вытягивать» их с помощью правильных методов персонализации и подбора данных .

💬 Цитаты

«Мы даем модели редкий идентификатор, который не имеет сильного априорного значения, и через него связываем визуальные черты объекта.»

Натаниэль Руис 11:31

«Эти огромные модели уже знают почти всё, нам просто нужно научиться правильно вытаскивать эти знания на поверхность.»

Натаниэль Руис 18:40
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Диффузионные модели
Тип генеративного ИИ, который создает изображения путем постепенного удаления шума из случайного пиксельного месива.
Fine-tuning
Процесс дообучения предварительно натренированной нейросети на узком наборе специфических данных.
HyperNetwork
Вспомогательная нейросеть, предназначенная для генерации или модификации весов другой нейросети.
LoRA (Low-Rank Adaptation)
Технология эффективного обучения, при которой меняется лишь малая часть параметров модели.
📊 Цифры
🗓 Хронология
  1. 2019 Натаниэль Руис работает над MorphGAN в Apple и методами защиты от дипфейков.
  2. Март 2023 Защита докторской диссертации в Бостонском университете.
  3. 2023 Публикация работ по HyperDreamBooth и участие в проекте Platypus.
⚖️ Другая сторона
Искусственный интеллект DreamBooth Google Research HyperDreamBooth Nataniel Ruiz Stable Diffusion