Ранджей Кришна: «Как Molmo бросает вызов гигантам ИИ»

Stanford Online 15,3 тыс. 1 ч 9 мин 3 мин 02.09.2025
Главное

Мультимодальные фундаментальные модели: от классификации к пониманию и управлению

Современный этап развития искусственного интеллекта характеризуется фундаментальным сдвигом: исследователи переходят от разработки узкоспециализированных моделей для конкретных задач к созданию универсальных «фундаментальных моделей». Эти системы предварительно обучаются на огромных массивах данных, приобретая широкий спектр навыков, которые затем адаптируются под нужды пользователя с минимальными затратами или вовсе без дополнительного обучения. Ранджей Кришна, доцент Вашингтонского университета, в своей лекции в Стэнфорде подробно разобрал эволюцию этих технологий — от CLIP до современных мультимодальных систем вроде Molmo, способных к глубокому анализу и управлению физическими объектами.

🖼 CLIP: прорыв в классификации через контрастивное обучение 4:10

Ключевым моментом в развитии компьютерного зрения стала модель CLIP, представленная OpenAI в 2021 году. В её основе лежит концепция контрастивного обучения: модель учится сопоставлять изображения с их текстовыми описаниями, скачанными из интернета.

Однако, по словам Кришны, CLIP имеет существенные ограничения: модель страдает от отсутствия «композиционности» (например, путает «кружку в траве» и «траву в кружке») и её производительность сильно зависит от размера пакета данных (batch size) при обучении,.

🗣 Мультимодальные языковые модели (VLM) 25:54

Следующим этапом стало появление Vision-Language Models (VLM), таких как LLaVA и Flamingo, которые объединяют возможности компьютерного зрения с навыками рассуждения больших языковых моделей (LLM).

🚀 Molmo: открытость и качество данных 43:51

Ранджей Кришна подчеркнул, что текущий разрыв в производительности между закрытыми моделями (GPT-4o, Gemini) и open-source решениями вызван прежде всего качеством данных, а не только вычислительными мощностями. Его лаборатория представила модель Molmo, которая демонстрирует сопоставимую с GPT-4o точность, будучи полностью открытой (вес, код, данные).

✂ Segment Anything (SAM) и искусство «чейнинга» 54:23

Модель Segment Anything (SAM) была создана для сегментации любых объектов на изображении по запросу пользователя (точка, рамка или текст). Благодаря огромному набору данных (рост в 400 раз по количеству масок по сравнению с предыдущими бенчмарками), SAM стала мощным фундаментом для задач редактирования изображений.

Идея «чейнинга» (объединения) моделей стала центральным трендом 2025 года. Вместо попыток создать «один ИИ для всего», исследователи строят системы, где одна модель (например, GPT) пишет Python-код для вызова других специализированных инструментов (детекторов объектов, сегментаторов). Этот подход, популяризированный работой VisProg, позволяет решать сложные логические задачи: например, посчитать количество людей в двух разных лодках, вызывая разные модели для каждой лодки и суммируя результаты.

Несмотря на прогресс, проблема галлюцинаций остаётся актуальной. Ранджей Кришна полагает, что будущие решения будут опираться на методы верификации ответов и автоматическое дообучение моделей при возникновении новых требований к функционалу,.

💬 Цитаты

«Никогда не ставьте против open source, независимо от того, сколько моделей разрабатывается в закрытую.»

Ранджей Кришна 47:05

«Мы до сих пор не знаем, как именно строить действительно производительные мультимодальные модели.»

Ранджей Кришна 43:14
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Контрастивное обучение
Метод обучения, при котором модель учится сближать векторы похожих объектов и удалять векторы непохожих.
Foundation models
Универсальные ИИ-модели, обученные на широких данных и адаптируемые под множество различных задач.
Zero-shot
Способность модели выполнять задачу без предварительного обучения на конкретных примерах этой задачи.
Чейнинг (chaining)
Объединение нескольких моделей в систему, где выход одной служит входом для другой, часто через генерацию программного кода.
Эмбеддинг
Числовое (векторное) представление объекта (изображения, слова), отражающее его семантические свойства.
📊 Цифры
🗓 Хронология
  1. 2019 Выход статьи ViLBERT, исследовавшей объединение зрения и языка через LSTM.
  2. 2021 OpenAI выпускает модель CLIP, задавшую стандарт контрастивного обучения.
  3. 2023 Релиз Segment Anything Model (SAM).
  4. Сентябрь 2025 Релиз открытой модели Molmo.
⚖️ Другая сторона
Искусственный интеллект Molmo CLIP Segment Anything компьютерное зрение мультимодальные модели