Ранджей Кришна: «Как Molmo бросает вызов гигантам ИИ»

Мультимодальные фундаментальные модели: от классификации к пониманию и управлению

Современный этап развития искусственного интеллекта характеризуется фундаментальным сдвигом: исследователи переходят от разработки узкоспециализированных моделей для конкретных задач к созданию универсальных «фундаментальных моделей». Эти системы предварительно обучаются на огромных массивах данных, приобретая широкий спектр навыков, которые затем адаптируются под нужды пользователя с минимальными затратами или вовсе без дополнительного обучения. Ранджей Кришна, доцент Вашингтонского университета, в своей лекции в Стэнфорде подробно разобрал эволюцию этих технологий — от CLIP до современных мультимодальных систем вроде Molmo, способных к глубокому анализу и управлению физическими объектами.

🖼 CLIP: прорыв в классификации через контрастивное обучение 4:10

Ключевым моментом в развитии компьютерного зрения стала модель CLIP, представленная OpenAI в 2021 году. В её основе лежит концепция контрастивного обучения: модель учится сопоставлять изображения с их текстовыми описаниями, скачанными из интернета.

Принцип работы: Модель использует два кодировщика — один для изображений, другой для текста. Задача состоит в том, чтобы сделать представления (эмбеддинги) «похожих» пар изображения и текста ближе друг к другу в векторном пространстве, одновременно отдаляя их от «непохожих» пар.
Zero-shot обучение: Благодаря такому подходу CLIP может классифицировать изображения даже в тех категориях, на которых его специально не обучали, просто используя текстовые запросы в качестве меток классов.
Масштабируемость: Успех модели обусловлен огромным объемом данных (около 400 млн пар изображение-текст) и архитектурой на базе трансформеров.

Однако, по словам Кришны, CLIP имеет существенные ограничения: модель страдает от отсутствия «композиционности» (например, путает «кружку в траве» и «траву в кружке») и её производительность сильно зависит от размера пакета данных (batch size) при обучении,.

🗣 Мультимодальные языковые модели (VLM) 25:54

Следующим этапом стало появление Vision-Language Models (VLM), таких как LLaVA и Flamingo, которые объединяют возможности компьютерного зрения с навыками рассуждения больших языковых моделей (LLM).

LLaVA: Использует кодировщик CLIP для извлечения визуальных признаков, которые через линейный слой передаются в языковую модель. Это позволяет модели «разговаривать» об изображении.
Flamingo: Инновация заключалась в добавлении модуля GATED X cross-attention в каждый слой языковой модели. Это дало возможность LLM динамически выбирать, какие именно части изображения важны для генерации текста в данный момент.
In-context learning: Подобно GPT, эти модели способны обучаться «на лету», принимая в качестве контекста примеры пар «изображение-описание» или «вопрос-ответ», что позволяет выполнять новые задачи без дообучения.

🚀 Molmo: открытость и качество данных 43:51

Ранджей Кришна подчеркнул, что текущий разрыв в производительности между закрытыми моделями (GPT-4o, Gemini) и open-source решениями вызван прежде всего качеством данных, а не только вычислительными мощностями. Его лаборатория представила модель Molmo, которая демонстрирует сопоставимую с GPT-4o точность, будучи полностью открытой (вес, код, данные).

Секрет успеха: Вместо миллиардов «случайных» пар из интернета, команда использовала 700 000 вручную отобранных и тщательно размеченных пар изображение-текст.
Обоснованность (Grounding): В отличие от других моделей, которые часто галлюцинируют, Molmo «указывает» на пиксели, подтверждающие её ответ (например, отмечает точки на всех объектах, которые считает). Это кардинально меняет взаимодействие с робототехникой, позволяя пользователю давать команды типа «подойди к этой бутылке».

✂ Segment Anything (SAM) и искусство «чейнинга» 54:23

Модель Segment Anything (SAM) была создана для сегментации любых объектов на изображении по запросу пользователя (точка, рамка или текст). Благодаря огромному набору данных (рост в 400 раз по количеству масок по сравнению с предыдущими бенчмарками), SAM стала мощным фундаментом для задач редактирования изображений.

Идея «чейнинга» (объединения) моделей стала центральным трендом 2025 года. Вместо попыток создать «один ИИ для всего», исследователи строят системы, где одна модель (например, GPT) пишет Python-код для вызова других специализированных инструментов (детекторов объектов, сегментаторов). Этот подход, популяризированный работой VisProg, позволяет решать сложные логические задачи: например, посчитать количество людей в двух разных лодках, вызывая разные модели для каждой лодки и суммируя результаты.

Несмотря на прогресс, проблема галлюцинаций остаётся актуальной. Ранджей Кришна полагает, что будущие решения будут опираться на методы верификации ответов и автоматическое дообучение моделей при возникновении новых требований к функционалу,.