# «Языковая модель — это центральный мозг»: Цзюньнань Ли и Дунсюй Ли о будущем мультимодальных систем и архитектуре BLIP2

Источник: https://www.youtube.com/watch?v=zTr5vDjEy2I
Канал: The Cognitive Revolution
Опубликовано: 09.03.2023

---

В новом выпуске подкаста **The Cognitive Revolution** ведущий Нейтан Лабенц обсуждает мультимодальную революцию в области искусственного интеллекта с исследователями из Salesforce Research Singapore. **Цзюньнань Ли** и **Дунсюй Ли**, соавторы прорывных моделей **BLIP** и **BLIP2**, рассказывают о том, как им удалось создать системы, удерживающие лидерство в распознавании изображений на протяжении года, и почему будущее AI за «замороженными» моделями и специализированными коннекторами.

## 🌉 От зрения к языку: конвергенция областей AI
[[JUMP:04:35]]

До недавнего времени компьютерное зрение и обработка естественного языка (NLP) считались отдельными дисциплинами с разным набором инструментов. Однако, по мнению **Цзюньнаня Ли**, границы между этими областями стремительно стираются [05:16]. Переход к архитектуре трансформеров (Transformers) позволил исследователям легко перемещаться между доменами, применяя одни и те же методы для работы с текстом и изображениями.

**Цзюньнань Ли** отмечает:

*   Исследователи начали свой путь как специалисты по компьютерному зрению во время PhD, но со временем расширили экспертизу на языковые модели [05:29].
*   Феномен «великой конвергенции» заключается в том, что универсальные архитектуры начинают эффективно работать во всех модальностях [05:54].

Модель **BLIP**, выпущенная в начале 2022 года, стала одной из самых цитируемых работ года (18-е место среди всех работ по AI) [02:37]. Она продемонстрировала лучшие результаты в создании подписей к изображениям (image captioning), визуальных ответах на вопросы (VQA) и сопоставлении изображений и текста.

## 🧬 Архитектура BLIP: как обучали «золотой стандарт»
[[JUMP:07:39]]

Путь к **BLIP** начался с работы над проектом **ALBEF**. **Цзюньнань Ли** поясняет, что их целью было создание мультимодального энкодера, способного понимать и изображение, и текст одновременно [08:33]. В отличие от модели **CLIP** от OpenAI, которая использует унимодальные энкодеры и просто вычисляет их сходство, в работах Ли была добавлена «фьюжн-архитектура» (fusion encoder) [08:45].

Ключевые механизмы обучения **BLIP** включают три функции потерь (loss functions) [14:32]:

1.  **Контрастивное обучение (Contrastive Learning):** обучение модели сопоставлять «положительные» пары (соответствующий текст и картинка) и отличать их от «отрицательных» (случайных пар) [15:50].
2.  **Генерация подписей (Language Modeling):** обучение декодера генерировать текстовые токены на основе визуальных данных [18:13].
3.  **Сопоставление текста и изображения (Image-Text Matching):** бинарная классификация, где модель через механизм перекрестного внимания (cross-attention) определяет, подходит ли текст к картинке на «микро-уровне» [19:07].

Важным новшеством стала фильтрация данных (data bootstrapping). По словам **Цзюньнаня Ли**, веб-данные крайне зашумлены (например, подпись к фото может быть просто фразой «какой отличный день»), что мешает обучению [11:24]. Команда разработала фильтр, который удалял шумные подписи и заменял их синтетически сгенерированными качественными описаниями [10:44].

## 🏙️ Работа с логотипами и OCR: почему BLIP точнее конкурентов
[[JUMP:20:16]]

Одной из уникальных особенностей **BLIP** стала его способность распознавать логотипы и текст на изображениях. **Дунсюй Ли** объясняет это отказом от использования фиксированных детекторов объектов (object detectors), которые ограничивают модель заранее заданными категориями (например, «кошка» или «машина») [24:03].

*   **Контрастивное обучение** позволяет модели сопоставлять конкретные токены из текста с конкретными регионами изображения [24:44].
*   Модель не имеет специализированного OCR-слоя, но благодаря масштабированию данных на 400 миллионов пар (LAION-400M), она обучается распознавать надписи как часть общего контекста [22:11].
*   При этом модель может ошибаться в редких названиях компаний, подставляя вместо них похожие из обучающей выборки, так как действует холистически, а не посимвольно [23:08].

## ⚡ BLIP2: революция эффективности и «замороженные» модели
[[JUMP:41:44]]

Выпуск **BLIP2** радикально изменил подход к обучению мультимодальных систем. Вместо обучения всей модели целиком (end-to-end), исследователи решили соединить уже существующие и «замороженные» (frozen) модели [43:16].

**Технические параметры BLIP2:**

*   **Время обучения:** менее 10 дней на одной машине с gpus A100 [03:43].
*   **Обучаемые параметры:** менее 200 миллионов, несмотря на то что общая архитектура может включать языковые модели на несколько миллиардов параметров [13:09].
*   **Гибкость:** можно подключать любую современную языковую модель (например, OPT или Vicuna) без необходимости переучивать визуальную часть [44:09].

**Цзюньнань Ли** сравнивает эту архитектуру с человеческим развитием: представьте человека, который вырос, обладая только знаниями из книг, и в один день открыл глаза [01:00]. Его задача — научиться интерпретировать визуальные сигналы через призму уже имеющихся знаний.

## 🧩 Q-Former: мост между пикселями и смыслами
[[JUMP:51:15]]

Сердцем **BLIP2** является модуль **Q-Former** (Querying Transformer). Это компактный коннектор, который извлекает наиболее важные признаки из изображения и преобразует их в эмбеддинги, понятные языковой модели [50:38].

Чтобы система заработала, команда применила двухэтапную стратегию обучения [45:28]:

1.  **Этап 1:** Обучение **Q-Former** понимать визуальную информацию в отрыве от большой языковой модели. На это уходит около 6 дней [55:39].
2.  **Этап 2:** Обучение коннектора «скармливать» эти знания языковой модели. Этот этап занимает всего около 2 дней [55:39].

Без первого этапа модель страдает от «катастрофического забывания» и пытается «читерить», подстраиваясь под статистику языка, а не под реальное содержание картинки [55:01]. Интересно, что эмбеддинги, которые **Q-Former** посылает в языковую модель, не интерпретируемы для человека напрямую — это своего рода «темное пространство» внутри векторного поля, которое понимает только AI [52:25].

## 🔮 Будущее: видео, звук и путь к AGI
[[JUMP:1:06:44]]

Исследователи видят в **BLIP2** прототип «исполнительной функции» будущего интеллекта. **Цзюньнань Ли** полагает, что аналогичные коннекторы можно создать для любой модальности:

*   **Видео:** добавление временных меток (timestamp) и позиционного кодирования кадров в тот же энкодер [1:05:59].
*   **Звук:** использование аудио-энкодеров для перевода звуковых волн в понятные языковой модели сигналы [1:06:28].
*   **Действия:** передача выходных данных языковой модели в другие коннекторы, управляющие робототехникой или написанием кода [1:07:36].

**Цзюньнань Ли** и **Дунсюй Ли** подчеркивают свою приверженность open-source. Почти 100% их исследований публикуются с открытым кодом и весами моделей [1:08:16]. Они считают, что демократизация обучения (когда для создания мощного AI не нужны тысячи GPU) — это единственный способ вовлечь сообщество в развитие безопасных технологий [1:08:41].

## 🛠️ Ежедневная работа и этика в Salesforce
[[JUMP:1:13:18]]

В повседневной работе ученые сами активно используют инструменты AI. **Дунсюй Ли** признается, что является «тяжелым пользователем» **GitHub Copilot** [1:13:31]. По его словам, отключение этого плагина заметно снижает качество его жизни как разработчика, особенно при написании шаблонного кода и тестов [1:15:01].

Что касается рисков, в Salesforce Research работает специальная группа по этике (Ethical AI team). Они проверяют все сценарии использования моделей перед их релизом [1:19:27].

*   Исследователи осознают проблему «галлюцинаций» и странного поведения чат-ботов [1:19:43].
*   Для интерпретации решений моделей команда разработала библиотеку **OmniXAI**, которая помогает понять, на основе каких признаков AI сделал тот или иной вывод [1:20:36].