Качество против количества: как модель BLIP очищает интернет-данные

Yannic Kilcher 7,3 тыс. 48 мин 5 мин 24.03.2022
Главное

Исследователи из Salesforce Research создали BLIP — унифицированную модель для одновременного понимания и генерации мультимодального контента. В интервью Яннику Килчеру авторы архитектуры Джуннан Ли и Дунсю Ли объяснили, как их подход решает фундаментальную проблему «шумных» данных при обучении нейросетей. Главный вывод разработчиков заключается в том, что очистка и контролируемое улучшение обучающей выборки дают больший эффект, чем простое наращивание её объёмов.

🛠️ Унифицированный подход: что такое BLIP 1:19

Модель BLIP представляет собой новую парадигму в обучении визуально-языковых моделей. По словам Джуннана Ли, ключевым преимуществом системы является её универсальность: в рамках единого фреймворка она объединяет функции понимания и генерации контента.

Функционал системы разделен на два основных направления:

Обычно для этих задач обучаются отдельные специализированные модели. BLIP доказывает, что объединение этих возможностей в одной сети не только возможно, но и взаимно выгодно для качества репрезентаций.

🧼 Бутстрэпинг данных: качество важнее количества 3:32

Главной технической инновацией BLIP стал алгоритм бутстрэпинга данных (data bootstrapping), направленный на борьбу со скрытым шумом в интернет-датасетах. Традиционно модели обучаются на миллиардах пар «картинка-текст», собранных краулерами из альтернативного текста (alt-text) веб-страниц, однако эти подписи часто оказываются некорректными.

Джуннан Ли определяет «шум» не как грамматические ошибки, а как отсутствие смысловой связи текста с визуальным рядом. Например, подпись к фотографии «мост рядом с моим домом» грамматически верна, но бесполезна для обучения общей модели, так как не описывает фактические объекты.

Для очистки датасетов авторы внедрили двухэтапный процесс:

По мнению Джуннана Ли, качество данных играет не менее, а порой и более важную роль, чем их количество. Это подтвердилось при переходе от стандартного датасета Conceptual Captions (3 миллиона изображений) к масштабному набору LAION, где проблема зашумленности проявилась наиболее остро.

🎭 Разнообразие против точности: эффект случайного сэмплирования 8:39

В ходе экспериментов исследователи столкнулись со скрытым противоречием между строгостью фильтрации и разнообразием текстов. Джуннан Ли отметил, что их выводы дополняют популярные теории о пользе некурированных данных: сырые данные дают масштаб, но бутстрэпинг выводит точность на новый уровень.

Особое внимание авторы уделили стратегии декодирования при генерации подписей, сравнив два метода:

Эксперименты показали удивительный результат: использование ядерного сэмплирования дало существенный прирост качества downstream-задач по сравнению с лучевым поиском. Несмотря на то, что стохастический метод генерирует больше шума (что подтверждается ростом процента отфильтрованных данных), создаваемое им разнообразие концептов критически важно для глубокого обучения модели.

🏗️ Архитектура модели и синергия функций 16:22

Вопреки первому впечатлению о переусложненности, BLIP не является гигантской системой. Архитектурно она состоит из стандартного Vision Transformer (ViT) и базовой версии BERT. Модель развилась из предыдущей работы авторов — ALBEF (представленной на NeurIPS в прошлом году), которая была исключительно кодировщиком.

Для интеграции генеративных функций авторы добавили декодирующий модуль и внедрили глубокое совместное использование параметров (parameter sharing). Наиболее эффективной стратегией оказалось разделение слоев самовнимания (self-attention) между кодировщиком и декодировщиком, при сохранении раздельных слоев перекрестного внимания (cross-attention).

Обучение BLIP оптимизируется через три базовые функции потерь, каждая из которых решает свою задачу:

  1. Контрастивная потеря (Image-Text Contrastive) — для глобального сопоставления модальностей.
  2. Потеря сопоставления (Image-Text Matching) — для отбора жестких негативных примеров и фильтрации.
  3. Языковое моделирование (Language Modeling) — авторегрессионная потеря для пословной генерации текста.

По словам Джуннана Ли, авторегрессионная потеря заставляет модель анализировать микродетали изображения для предсказания конкретных слов, что кардинально улучшает fine-grained (мелкозернистое) понимание контекста.

📊 Результаты экспериментов: оправдан ли 1% прироста? 31:06

Таблицы результатов в статье демонстрируют стабильное преимущество BLIP перед конкурентами. В Таблице 1 зафиксировано, что совместное использование генератора и фильтра (C + F) дает синергетический эффект на задачах поиска (retrieval) и создания подписей на четырех различных датасетах. При этом средний чистый прирост метрик (например, Recall) составляет около 1–2%.

Ведущий Янник Килчер поднял закономерный вопрос: стоит ли тратить недели дорогостоящего обучения ради 2% улучшения? На этот счет у разработчиков сформировалась четкая позиция. По мнению Дунсю Ли, в коммерческих поисковых системах (например, в сервисах Salesforce) улучшение метрики извлечения даже на 1% конвертируется в огромную финансовую прибыль для бизнеса, полностью окупая затраты на инфраструктуру.

В процессе масштабирования авторы также выявили важные технические нюансы:

💼 Исследования в Salesforce и свободный формат VQA 40:54

Качественным отличием BLIP от более ранних систем визуального вопрос-ответа (VQA) стала способность к свободному ведению диалога. Дунсю Ли подчеркнул, что старые модели VQA обучались как классификаторы по фиксированному словарю ответов, тогда как BLIP использует полноценную генерацию текста, позволяя пользователю задавать любые вопросы на естественном языке. Оценить это можно в открытом веб-демо.

Рассказывая о внутренней кухне Salesforce Research, авторы отметили высокий уровень академической свободы. Команда компактнее исследовательских подразделений Google или Meta, но обладает гибкостью и ориентирована на создание высокоэффективных решений. Пока модель находится на недельном предобучении, исследователи занимаются анализом литературы, внутренними дискуссиями или решением прикладных продуктовых задач. В финале интервью ученые объявили, что их команда активно расширяется и нанимает интернов со всего мира на удаленную работу.

💬 Цитаты

«качество данных играет не менее, а порой и более важную роль, чем их количество»

Джуннан Ли 04:11

«если вы просто дадите вашему GPU поработать одну неделю и улучшите показатель на один процент — это огромное достижение»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Бутстрэпинг данных
Метод автоматического улучшения и очистки обучающей выборки с помощью самой нейросети.
Ядерное сэмплирование (Nucleus Sampling)
Вероятностный метод генерации текста, выбирающий слова из динамического подмножества наиболее вероятных вариантов для повышения разнообразия.
Лучевой поиск (Beam Search)
Детерминированный алгоритм генерации текста, последовательно отслеживающий и выбирающий наиболее правдоподобные цепочки слов.
VQA (Visual Question Answering)
Задача искусственного интеллекта, заключающаяся в выдаче точного текстового ответа на любой вопрос пользователя по содержанию картинки.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект BLIP Salesforce Research Джуннан Ли бутстрэпинг данных