Натаниэль Руис из Google: «DreamBooth способен научить ИИ узнавать вашу собаку по пяти фото»

В новом эпизоде подкаста TWIML AI Сэм Черрингтон беседует с Натаниэлем Руисом, ученым-исследователем из Google, о прорывных методах персонализации генеративного ИИ. Разговор посвящен тому, как научить модели глубокого обучения интерпретировать уникальные объекты и стили пользователя, используя всего несколько примеров.

🎨 От борьбы с дипфейками к созиданию: путь Натаниэля Руиса 0:00

Натаниэль Руис начал свою карьеру с изучения уязвимостей нейросетей. Его ранние работы были посвящены состязательным атакам (adversarial attacks) на системы генерации лиц. Основная идея заключалась в том, чтобы накладывать на изображения невидимые для человека помехи, которые заставляли бы нейросети ошибаться при попытке создать дипфейк на основе этого фото .

По словам Руиса, в 2019 году эта область была ещё в зачатке, так как генеративные модели создавали изображения низкого качества. Однако сегодня, с расцветом мощных диффузионных моделей, защита цифровой идентичности стала крайне актуальной темой, что подтверждают работы лаборатории Александра Мадри в MIT .

Научный интерес Руиса плавно сместился от защиты к расширению возможностей моделей. Его диссертация в Бостонском университете была посвящена симуляции изображений и видео для обучения алгоритмов . В конечном итоге это привело его в Google, где он занялся проблемой субъективно-ориентированной генерации (subject-driven generation).

🐶 DreamBooth: как ИИ запоминает вашего питомца 5:15

Флагманским проектом Руиса стал DreamBooth — алгоритм, позволяющий «встроить» конкретный объект (например, вашу собаку по кличке Спарки) в готовую диффузионную модель, такую как Imagen или Stable Diffusion .

Механика работы DreamBooth

Традиционные модели умеют генерировать «собаку вообще», но не способны воссоздать конкретное животное с его уникальным окрасом и чертами. Руис объясняет процесс персонализации следующим образом:

Уникальный токен: Модели сопоставляется редкая последовательность символов (например, специально сгенерированный идентификатор «V»), которая ранее не имела для нейросети смысла .
Дообучение (Fine-tuning): Модель тренируется на 3–5 фотографиях объекта с текстовым описанием «фото [V] собаки» .
Локализация: Благодаря указанию класса (собака) ИИ понимает, на какой области изображения сосредоточено внимание, и связывает уникальные черты объекта с новым токеном .

Почему это работает?

Гость отмечает, что успех DreamBooth стал неожиданностью даже для разработчиков из-за своей простоты. Модель не просто переобучается, а «вытягивает» свои обширные предварительные знания о мире, чтобы правильно интерпретировать детали нового объекта в разных контекстах — например, Спарки на фоне Эйфелевой башни . Одной из гипотез устойчивости диффузионных моделей к переобучению является сам процесс диффузии: постоянное зашумление и расшумление мешает нейросети просто «зазубрить» пиксели .

🧪 Проблемы «языкового дрейфа» и сохранение стилей 20:11

Одной из главных трудностей при персонализации является риск забывания моделью общего понятия. Если переобучить сеть на фотографиях конкретного кота, используя только слово «кот», она может начать генерировать этого кота всегда, даже когда её просят создать «группу из шести разных кошек» . Это явление Руис называет «языковым дрейфом».

Для решения этой проблемы была разработана функция потерь для сохранения априорных знаний (Prior Preservation Loss):

Автогенные данные: Сама модель генерирует сотни изображений собак других пород .
Смешанное обучение: В процессе дообучения модель видит и фотографии конкретной собаки пользователя, и изображения «собак вообще», созданные ею ранее. Это позволяет ИИ сохранить разницу между конкретным объектом и целым классом.

⚡ HyperDreamBooth и экстремальное сжатие весов 35:14

Несмотря на успех DreamBooth, у него были недостатки: большой размер файлов (около гигабайта на объект) и медленная скорость обучения (до 5–10 минут) . В ответ на это Руис и его коллеги представили HyperDreamBooth.

Ключевые инновации HyperDreamBooth:

Параметрическая эффективность: Ученым удалось сократить количество настраиваемых параметров до 30 000 — это в сотни раз меньше, чем в исходных моделях .
Гиперсети (HyperNetworks): Вместо долгого дообучения используется специальная сеть, которая за один проход предсказывает изменения весов основной модели на основе входного фото .
Скорость: Процесс персонализации сократился до 20 секунд за счет сочетания предсказания гиперсети и очень быстрого дообучения .

Натаниэль подчеркивает, что такие малые изменения весов позволяют сохранить «prior» модели: ИИ не разучивается рисовать в разных стилях, при этом максимально точно воспроизводя черты лица человека .

📚 Выход за пределы изображений: проект Platypus 45:15

Хотя Руис специализируется на компьютерном зрении, он принял участие в разработке Platypus — набора данных и семейства моделей для обучения текстовых LLM (Large Language Models) .

Проект доказал, что для качественного улучшения ИИ не всегда нужны гигантские ресурсы:

Команда сфокусировалась на создании небольшого, но крайне качественного датасета, очищенного от дублей и «загрязнений» (когда тестовые вопросы попадают в обучающую выборку) .
Модели семейства Platypus (на базе Llama) удерживали лидерство в рейтинге Hugging Face Open LLM Leaderboard в течение двух недель, соревнуясь с проектами гораздо более крупных лабораторий .

По мнению Руиса, это подтверждает общий тренд: современные модели уже обладают колоссальными скрытыми знаниями, и задача ученых — научиться эффективно «вытягивать» их с помощью правильных методов персонализации и подбора данных .