«Языковая модель — это центральный мозг»: Цзюньнань Ли и Дунсюй Ли о будущем мультимодальных систем и архитектуре BLIP2

The Cognitive Revolution 1,3 тыс. 1 ч 21 мин 5 мин 09.03.2023
Главное

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсуждает мультимодальную революцию в области искусственного интеллекта с исследователями из Salesforce Research Singapore. Цзюньнань Ли и Дунсюй Ли, соавторы прорывных моделей BLIP и BLIP2, рассказывают о том, как им удалось создать системы, удерживающие лидерство в распознавании изображений на протяжении года, и почему будущее AI за «замороженными» моделями и специализированными коннекторами.

🌉 От зрения к языку: конвергенция областей AI 4:35

До недавнего времени компьютерное зрение и обработка естественного языка (NLP) считались отдельными дисциплинами с разным набором инструментов. Однако, по мнению Цзюньнаня Ли, границы между этими областями стремительно стираются . Переход к архитектуре трансформеров (Transformers) позволил исследователям легко перемещаться между доменами, применяя одни и те же методы для работы с текстом и изображениями.

Цзюньнань Ли отмечает:

Модель BLIP, выпущенная в начале 2022 года, стала одной из самых цитируемых работ года (18-е место среди всех работ по AI) . Она продемонстрировала лучшие результаты в создании подписей к изображениям (image captioning), визуальных ответах на вопросы (VQA) и сопоставлении изображений и текста.

🧬 Архитектура BLIP: как обучали «золотой стандарт» 7:39

Путь к BLIP начался с работы над проектом ALBEF. Цзюньнань Ли поясняет, что их целью было создание мультимодального энкодера, способного понимать и изображение, и текст одновременно . В отличие от модели CLIP от OpenAI, которая использует унимодальные энкодеры и просто вычисляет их сходство, в работах Ли была добавлена «фьюжн-архитектура» (fusion encoder) .

Ключевые механизмы обучения BLIP включают три функции потерь (loss functions) :

  1. Контрастивное обучение (Contrastive Learning): обучение модели сопоставлять «положительные» пары (соответствующий текст и картинка) и отличать их от «отрицательных» (случайных пар) .
  2. Генерация подписей (Language Modeling): обучение декодера генерировать текстовые токены на основе визуальных данных .
  3. Сопоставление текста и изображения (Image-Text Matching): бинарная классификация, где модель через механизм перекрестного внимания (cross-attention) определяет, подходит ли текст к картинке на «микро-уровне» .

Важным новшеством стала фильтрация данных (data bootstrapping). По словам Цзюньнаня Ли, веб-данные крайне зашумлены (например, подпись к фото может быть просто фразой «какой отличный день»), что мешает обучению . Команда разработала фильтр, который удалял шумные подписи и заменял их синтетически сгенерированными качественными описаниями .

🏙️ Работа с логотипами и OCR: почему BLIP точнее конкурентов 20:16

Одной из уникальных особенностей BLIP стала его способность распознавать логотипы и текст на изображениях. Дунсюй Ли объясняет это отказом от использования фиксированных детекторов объектов (object detectors), которые ограничивают модель заранее заданными категориями (например, «кошка» или «машина») .

⚡ BLIP2: революция эффективности и «замороженные» модели 41:44

Выпуск BLIP2 радикально изменил подход к обучению мультимодальных систем. Вместо обучения всей модели целиком (end-to-end), исследователи решили соединить уже существующие и «замороженные» (frozen) модели .

Технические параметры BLIP2:

Цзюньнань Ли сравнивает эту архитектуру с человеческим развитием: представьте человека, который вырос, обладая только знаниями из книг, и в один день открыл глаза . Его задача — научиться интерпретировать визуальные сигналы через призму уже имеющихся знаний.

🧩 Q-Former: мост между пикселями и смыслами 51:15

Сердцем BLIP2 является модуль Q-Former (Querying Transformer). Это компактный коннектор, который извлекает наиболее важные признаки из изображения и преобразует их в эмбеддинги, понятные языковой модели .

Чтобы система заработала, команда применила двухэтапную стратегию обучения :

  1. Этап 1: Обучение Q-Former понимать визуальную информацию в отрыве от большой языковой модели. На это уходит около 6 дней .
  2. Этап 2: Обучение коннектора «скармливать» эти знания языковой модели. Этот этап занимает всего около 2 дней .

Без первого этапа модель страдает от «катастрофического забывания» и пытается «читерить», подстраиваясь под статистику языка, а не под реальное содержание картинки . Интересно, что эмбеддинги, которые Q-Former посылает в языковую модель, не интерпретируемы для человека напрямую — это своего рода «темное пространство» внутри векторного поля, которое понимает только AI .

🔮 Будущее: видео, звук и путь к AGI 1:06:44

Исследователи видят в BLIP2 прототип «исполнительной функции» будущего интеллекта. Цзюньнань Ли полагает, что аналогичные коннекторы можно создать для любой модальности:

Цзюньнань Ли и Дунсюй Ли подчеркивают свою приверженность open-source. Почти 100% их исследований публикуются с открытым кодом и весами моделей . Они считают, что демократизация обучения (когда для создания мощного AI не нужны тысячи GPU) — это единственный способ вовлечь сообщество в развитие безопасных технологий .

🛠️ Ежедневная работа и этика в Salesforce 1:13:18

В повседневной работе ученые сами активно используют инструменты AI. Дунсюй Ли признается, что является «тяжелым пользователем» GitHub Copilot . По его словам, отключение этого плагина заметно снижает качество его жизни как разработчика, особенно при написании шаблонного кода и тестов .

Что касается рисков, в Salesforce Research работает специальная группа по этике (Ethical AI team). Они проверяют все сценарии использования моделей перед их релизом .

💬 Цитаты

«Языковая модель может рассматриваться как центральная часть, хранящая все знания, а мы пытаемся навести мосты к другим модальностям.»

«Для BLIP2 большинство времени вам даже не нужна дообучение (fine-tuning), потому что она отлично обобщает информацию.»

Цзюньнань Ли 36:16

«Если я отключу плагин Copilot, я чувствую, что качество моей жизни сильно ухудшится.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Q-Former
Легковесный трансформер, который извлекает визуальные признаки и преобразует их в формат, понятный языковой модели.
Frozen Models
Модели с «замороженными» весами, которые не меняются в процессе обучения новой системы.
Contrastive Learning
Метод обучения, при котором модель учится находить сходства и различия между парами объектов (например, картинкой и текстом).
End-to-end training
Процесс обучения всей нейронной сети целиком, от входа до выхода, без использования готовых блоков.
📊 Цифры
🗓 Хронология
  1. Январь 2021 Распознавание содержимого фото считалось нерешенной задачей.
  2. Начало 2022 Релиз оригинальной модели BLIP.
  3. Январь 2023 Выход статьи и модели BLIP2.
⚖️ Другая сторона
Искусственный интеллект BLIP BLIP2 Salesforce Research Цзюньнань Ли Дунсюй Ли