Salesforce Research представила BLIP: универсальный ИИ для понимания и генерации изображений

Yannic Kilcher 35,7 тыс. 46 мин 4 мин 23.03.2022
Главное

Исследователь в области машинного обучения Янник Кильхер (Yannic Kilcher) представил подробный разбор научной работы, посвященной BLIP — новой архитектуре и методу обучения нейросетей от Salesforce Research. Проект предлагает элегантное решение двух главных проблем в области взаимодействия зрения и языка: несовместимости архитектур для понимания и генерации, а также низкого качества данных, собранных из открытого интернета.

🧠 Архитектура MED: Унификация через модульность 3:42

Современные модели компьютерного зрения и обработки естественного языка обычно делятся на два типа: только энкодеры (как CLIP) или энкодер-декодеры. По мнению Янника Кильхера, у обоих подходов есть существенные недостатки . Энкодеры отлично справляются с задачами поиска (retrieval), когда нужно сопоставить картинку с текстом, но их крайне сложно заставить генерировать описания . С другой стороны, архитектуры энкодер-декодер эффективны для создания подписей к изображениям, но плохо работают в задачах поиска и сопоставления .

Для решения этой проблемы Salesforce Research предложили архитектуру MED (Multimodal Mixture of Encoder-Decoder) — «нечестивую смесь» из нескольких модулей, работающих с общими весами :

Интересной особенностью архитектуры является совместное использование параметров. Как отмечает Янник Кильхер, текстовые модули делят между собой веса слоев прямого распространения (feed-forward) и слоев cross-attention, что уменьшает размер модели и, согласно результатам тестов, улучшает производительность .

🎯 Три цели обучения для одной модели 18:38

Модель BLIP обучается одновременно на трех задачах, что позволяет ей быть универсальной «из коробки» :

  1. Image-Text Contrastive Loss (ITC): обучение на контрасте, где модель учится сближать векторы похожих изображений и текстов и отдалять несовпадающие пары.
  2. Image-Text Matching Loss (ITM): задача бинарной классификации. Модели подается пара «текст-картинка», и она должна ответить, соответствуют ли они друг другу. Для усложнения задачи используется стратегия «hard negative mining» — подбор ложных пар, которые очень похожи на истинные .
  3. Language Modeling Loss (LM): классическая задача генерации текста, где модель учится предсказывать следующее слово в описании картинки .

🧼 Метод CapFilt: Очистка «шумного» интернета 29:47

Второй прорывной частью работы является метод бутстрапинга данных под названием CapFilt (Captioning and Filtering). Основная претензия авторов к современным датасетам заключается в том, что они собраны из интернета через alt-тексты (описания картинок в HTML). По словам Янника Кильхера, такие подписи часто бесполезны: люди либо не заполняют их, либо используют для поисковой оптимизации (SEO), вставляя ключевые слова, не связанные с содержанием фото .

Процесс CapFilt состоит из нескольких этапов:

Янник Кильхер подчеркивает, что это важный тренд: использование дискриминативных моделей для фильтрации выходов генеративных моделей становится «золотым стандартом» индустрии .

🎲 Нуклеарное сэмплирование против жадного поиска 42:17

В процессе генерации новых описаний для датасета исследователи обнаружили важный нюанс. Традиционный «лучевой поиск» (beam search), который ищет наиболее вероятные слова, выдавал слишком скучные и общие описания . Использование нуклеарного сэмплирования (nucleus sampling), которое вносит элемент случайности, привело к созданию более разнообразных и информативных подписей.

По мнению Кильхера, это доказывает, что для обучения ИИ «неожиданные» и редкие данные в подписях могут быть полезнее, чем максимально безопасные и предсказуемые варианты . Модель обучается лучше, когда получает новые крупицы знаний, а не повторение очевидного.

🚀 Будущее динамических нейросетей 44:41

Завершая обзор, Янник Кильхер выразил надежду на появление фреймворков, которые позволят собирать такие модели автоматически . BLIP продемонстрировал, что модули (энкодеры изображений и текстов) можно не только выбирать, но и пересобирать под конкретные задачи: визуальные ответы на вопросы (VQA), поиск или генерацию .

Хотя Янник скептически относится к заявлениям авторов о том, что BLIP «значительно» превосходит конкурентов (считая это стандартным преувеличением для научных статей), он признает , что архитектура и метод очистки данных являются крайне перспективными рецептами для будущего развития мультимодального ИИ.

💬 Цитаты

«Это может проложить путь к будущему, где у нас будут гораздо более динамичные композиции моделей.»

Янник Кильхер 04:37

«Шумный веб-текст суб-оптимален для обучения компьютерного зрения и языка.»

Янник Кильхер 09:12
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
ViT (Vision Transformer)
Архитектура нейросети, применяющая механизмы трансформеров (изначально созданных для текста) к обработке изображений.
Cross-attention
Механизм внимания, позволяющий одной части нейросети (например, текстовой) фокусироваться на соответствующих частях данных из другой модальности (например, изображения).
Nucleus sampling
Метод генерации текста, при котором следующее слово выбирается из набора наиболее вероятных токенов, суммарная вероятность которых превышает заданный порог.
Zero-shot
Способность модели выполнять задачу, для которой она не проходила специальное обучение или дообучение.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект BLIP Salesforce Research Янник Кильхер Vision-Language Pre-training CapFilt