# Ранджей Кришна: «Как Molmo бросает вызов гигантам ИИ»

Источник: https://www.youtube.com/watch?v=mQOK0Mfyrkk
Канал: Stanford Online
Опубликовано: 02.09.2025

---

## Мультимодальные фундаментальные модели: от классификации к пониманию и управлению [[JUMP:00:59]]

Современный этап развития искусственного интеллекта характеризуется фундаментальным сдвигом: исследователи переходят от разработки узкоспециализированных моделей для конкретных задач к созданию универсальных «фундаментальных моделей». Эти системы предварительно обучаются на огромных массивах данных, приобретая широкий спектр навыков, которые затем адаптируются под нужды пользователя с минимальными затратами или вовсе без дополнительного обучения. Ранджей Кришна, доцент Вашингтонского университета, в своей лекции в Стэнфорде подробно разобрал эволюцию этих технологий — от CLIP до современных мультимодальных систем вроде Molmo, способных к глубокому анализу и управлению физическими объектами.

## 🖼 CLIP: прорыв в классификации через контрастивное обучение
[[JUMP:04:10]]

Ключевым моментом в развитии компьютерного зрения стала модель CLIP, представленная OpenAI в 2021 году. В её основе лежит концепция контрастивного обучения: модель учится сопоставлять изображения с их текстовыми описаниями, скачанными из интернета.

*   **Принцип работы:** Модель использует два кодировщика — один для изображений, другой для текста. Задача состоит в том, чтобы сделать представления (эмбеддинги) «похожих» пар изображения и текста ближе друг к другу в векторном пространстве, одновременно отдаляя их от «непохожих» пар.
*   **Zero-shot обучение:** Благодаря такому подходу CLIP может классифицировать изображения даже в тех категориях, на которых его специально не обучали, просто используя текстовые запросы в качестве меток классов.
*   **Масштабируемость:** Успех модели обусловлен огромным объемом данных (около 400 млн пар изображение-текст) и архитектурой на базе трансформеров.

Однако, по словам Кришны, CLIP имеет существенные ограничения: модель страдает от отсутствия «композиционности» (например, путает «кружку в траве» и «траву в кружке») и её производительность сильно зависит от размера пакета данных (batch size) при обучении,.

## 🗣 Мультимодальные языковые модели (VLM)
[[JUMP:25:54]]

Следующим этапом стало появление Vision-Language Models (VLM), таких как LLaVA и Flamingo, которые объединяют возможности компьютерного зрения с навыками рассуждения больших языковых моделей (LLM).

*   **LLaVA:** Использует кодировщик CLIP для извлечения визуальных признаков, которые через линейный слой передаются в языковую модель. Это позволяет модели «разговаривать» об изображении.
*   **Flamingo:** Инновация заключалась в добавлении модуля GATED X cross-attention в каждый слой языковой модели. Это дало возможность LLM динамически выбирать, какие именно части изображения важны для генерации текста в данный момент.
*   **In-context learning:** Подобно GPT, эти модели способны обучаться «на лету», принимая в качестве контекста примеры пар «изображение-описание» или «вопрос-ответ», что позволяет выполнять новые задачи без дообучения.

## 🚀 Molmo: открытость и качество данных
[[JUMP:43:51]]

Ранджей Кришна подчеркнул, что текущий разрыв в производительности между закрытыми моделями (GPT-4o, Gemini) и open-source решениями вызван прежде всего качеством данных, а не только вычислительными мощностями. Его лаборатория представила модель **Molmo**, которая демонстрирует сопоставимую с GPT-4o точность, будучи полностью открытой (вес, код, данные).

*   **Секрет успеха:** Вместо миллиардов «случайных» пар из интернета, команда использовала 700 000 вручную отобранных и тщательно размеченных пар изображение-текст.
*   **Обоснованность (Grounding):** В отличие от других моделей, которые часто галлюцинируют, Molmo «указывает» на пиксели, подтверждающие её ответ (например, отмечает точки на всех объектах, которые считает). Это кардинально меняет взаимодействие с робототехникой, позволяя пользователю давать команды типа «подойди к этой бутылке».

## ✂ Segment Anything (SAM) и искусство «чейнинга»
[[JUMP:54:23]]

Модель **Segment Anything (SAM)** была создана для сегментации любых объектов на изображении по запросу пользователя (точка, рамка или текст). Благодаря огромному набору данных (рост в 400 раз по количеству масок по сравнению с предыдущими бенчмарками), SAM стала мощным фундаментом для задач редактирования изображений.

**Идея «чейнинга» (объединения)** моделей стала центральным трендом 2025 года. Вместо попыток создать «один ИИ для всего», исследователи строят системы, где одна модель (например, GPT) пишет Python-код для вызова других специализированных инструментов (детекторов объектов, сегментаторов). Этот подход, популяризированный работой **VisProg**, позволяет решать сложные логические задачи: например, посчитать количество людей в двух разных лодках, вызывая разные модели для каждой лодки и суммируя результаты.

Несмотря на прогресс, проблема галлюцинаций остаётся актуальной. Ранджей Кришна полагает, что будущие решения будут опираться на методы верификации ответов и автоматическое дообучение моделей при возникновении новых требований к функционалу,.