«Языковая модель — это центральный мозг»: Цзюньнань Ли и Дунсюй Ли о будущем мультимодальных систем и архитектуре BLIP2

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсуждает мультимодальную революцию в области искусственного интеллекта с исследователями из Salesforce Research Singapore. Цзюньнань Ли и Дунсюй Ли, соавторы прорывных моделей BLIP и BLIP2, рассказывают о том, как им удалось создать системы, удерживающие лидерство в распознавании изображений на протяжении года, и почему будущее AI за «замороженными» моделями и специализированными коннекторами.

🌉 От зрения к языку: конвергенция областей AI 4:35

До недавнего времени компьютерное зрение и обработка естественного языка (NLP) считались отдельными дисциплинами с разным набором инструментов. Однако, по мнению Цзюньнаня Ли, границы между этими областями стремительно стираются . Переход к архитектуре трансформеров (Transformers) позволил исследователям легко перемещаться между доменами, применяя одни и те же методы для работы с текстом и изображениями.

Цзюньнань Ли отмечает:

Исследователи начали свой путь как специалисты по компьютерному зрению во время PhD, но со временем расширили экспертизу на языковые модели .
Феномен «великой конвергенции» заключается в том, что универсальные архитектуры начинают эффективно работать во всех модальностях .

Модель BLIP, выпущенная в начале 2022 года, стала одной из самых цитируемых работ года (18-е место среди всех работ по AI) . Она продемонстрировала лучшие результаты в создании подписей к изображениям (image captioning), визуальных ответах на вопросы (VQA) и сопоставлении изображений и текста.

🧬 Архитектура BLIP: как обучали «золотой стандарт» 7:39

Путь к BLIP начался с работы над проектом ALBEF. Цзюньнань Ли поясняет, что их целью было создание мультимодального энкодера, способного понимать и изображение, и текст одновременно . В отличие от модели CLIP от OpenAI, которая использует унимодальные энкодеры и просто вычисляет их сходство, в работах Ли была добавлена «фьюжн-архитектура» (fusion encoder) .

Ключевые механизмы обучения BLIP включают три функции потерь (loss functions) :

Контрастивное обучение (Contrastive Learning): обучение модели сопоставлять «положительные» пары (соответствующий текст и картинка) и отличать их от «отрицательных» (случайных пар) .
Генерация подписей (Language Modeling): обучение декодера генерировать текстовые токены на основе визуальных данных .
Сопоставление текста и изображения (Image-Text Matching): бинарная классификация, где модель через механизм перекрестного внимания (cross-attention) определяет, подходит ли текст к картинке на «микро-уровне» .

Важным новшеством стала фильтрация данных (data bootstrapping). По словам Цзюньнаня Ли, веб-данные крайне зашумлены (например, подпись к фото может быть просто фразой «какой отличный день»), что мешает обучению . Команда разработала фильтр, который удалял шумные подписи и заменял их синтетически сгенерированными качественными описаниями .

🏙️ Работа с логотипами и OCR: почему BLIP точнее конкурентов 20:16

Одной из уникальных особенностей BLIP стала его способность распознавать логотипы и текст на изображениях. Дунсюй Ли объясняет это отказом от использования фиксированных детекторов объектов (object detectors), которые ограничивают модель заранее заданными категориями (например, «кошка» или «машина») .

Контрастивное обучение позволяет модели сопоставлять конкретные токены из текста с конкретными регионами изображения .
Модель не имеет специализированного OCR-слоя, но благодаря масштабированию данных на 400 миллионов пар (LAION-400M), она обучается распознавать надписи как часть общего контекста .
При этом модель может ошибаться в редких названиях компаний, подставляя вместо них похожие из обучающей выборки, так как действует холистически, а не посимвольно .

⚡ BLIP2: революция эффективности и «замороженные» модели 41:44

Выпуск BLIP2 радикально изменил подход к обучению мультимодальных систем. Вместо обучения всей модели целиком (end-to-end), исследователи решили соединить уже существующие и «замороженные» (frozen) модели .

Технические параметры BLIP2:

Время обучения: менее 10 дней на одной машине с gpus A100 .
Обучаемые параметры: менее 200 миллионов, несмотря на то что общая архитектура может включать языковые модели на несколько миллиардов параметров .
Гибкость: можно подключать любую современную языковую модель (например, OPT или Vicuna) без необходимости переучивать визуальную часть .

Цзюньнань Ли сравнивает эту архитектуру с человеческим развитием: представьте человека, который вырос, обладая только знаниями из книг, и в один день открыл глаза . Его задача — научиться интерпретировать визуальные сигналы через призму уже имеющихся знаний.

🧩 Q-Former: мост между пикселями и смыслами 51:15

Сердцем BLIP2 является модуль Q-Former (Querying Transformer). Это компактный коннектор, который извлекает наиболее важные признаки из изображения и преобразует их в эмбеддинги, понятные языковой модели .

Чтобы система заработала, команда применила двухэтапную стратегию обучения :

Этап 1: Обучение Q-Former понимать визуальную информацию в отрыве от большой языковой модели. На это уходит около 6 дней .
Этап 2: Обучение коннектора «скармливать» эти знания языковой модели. Этот этап занимает всего около 2 дней .

Без первого этапа модель страдает от «катастрофического забывания» и пытается «читерить», подстраиваясь под статистику языка, а не под реальное содержание картинки . Интересно, что эмбеддинги, которые Q-Former посылает в языковую модель, не интерпретируемы для человека напрямую — это своего рода «темное пространство» внутри векторного поля, которое понимает только AI .

🔮 Будущее: видео, звук и путь к AGI 1:06:44

Исследователи видят в BLIP2 прототип «исполнительной функции» будущего интеллекта. Цзюньнань Ли полагает, что аналогичные коннекторы можно создать для любой модальности:

Видео: добавление временных меток (timestamp) и позиционного кодирования кадров в тот же энкодер .
Звук: использование аудио-энкодеров для перевода звуковых волн в понятные языковой модели сигналы .
Действия: передача выходных данных языковой модели в другие коннекторы, управляющие робототехникой или написанием кода .

Цзюньнань Ли и Дунсюй Ли подчеркивают свою приверженность open-source. Почти 100% их исследований публикуются с открытым кодом и весами моделей . Они считают, что демократизация обучения (когда для создания мощного AI не нужны тысячи GPU) — это единственный способ вовлечь сообщество в развитие безопасных технологий .

🛠️ Ежедневная работа и этика в Salesforce 1:13:18

В повседневной работе ученые сами активно используют инструменты AI. Дунсюй Ли признается, что является «тяжелым пользователем» GitHub Copilot . По его словам, отключение этого плагина заметно снижает качество его жизни как разработчика, особенно при написании шаблонного кода и тестов .

Что касается рисков, в Salesforce Research работает специальная группа по этике (Ethical AI team). Они проверяют все сценарии использования моделей перед их релизом .

Исследователи осознают проблему «галлюцинаций» и странного поведения чат-ботов .
Для интерпретации решений моделей команда разработала библиотеку OmniXAI, которая помогает понять, на основе каких признаков AI сделал тот или иной вывод .