Grok 1.5 Vision: как новая модель xAI обходит GPT-4 и Claude в бенчмарках

Компания xAI Илона Маска представила Grok 1.5 Vision (Grok 1.5V) — первую мультимодальную модель в своей линейке, способную обрабатывать не только текст, но и широкий спектр визуальной информации. Ведущий канала Уэс Рот анализирует результаты тестов, которые показывают, что новая модель успешно конкурирует с лидерами рынка в лице GPT-4V, Claude 3 и Gemini 1.5 Pro.

🚀 Новый игрок в высшей лиге: анонс Grok 1.5 Vision 0:00

12 апреля 2024 года компания xAI официально представила предварительную версию Grok 1.5 Vision . По словам разработчиков, эта модель призвана соединить цифровой и физический миры. В дополнение к сильным текстовым возможностям, Grok теперь может обрабатывать документы, диаграммы, графики, скриншоты и фотографии .

Уэс Рот отмечает, что анонс вызвал огромный интерес, набрав 4,7 миллиона просмотров всего за несколько часов . На текущем этапе доступ к модели скоро получат ранние тестеры и существующие пользователи Grok на платформе X .

Одной из ключевых особенностей тестирования Grok 1.5V является использование режима «zero-shot» (без предварительных примеров) и отсутствие техники Chain of Thought (цепочки рассуждений) при проведении бенчмарков . Рот подчеркивает, что это важная деталь, так как многие компании прибегают к различным уловкам при демонстрации возможностей своих нейросетей, в то время как xAI показывает «чистую» производительность .

🛠 От эскиза до кода: практические возможности модели 3:23

В качестве доказательства эффективности Grok разработчики представили серию примеров, демонстрирующих понимание контекста и логики визуальных данных:

Написание кода по диаграмме: Модель успешно перевела нарисованную на доске блок-схему игры «угадай число» в полноценный Python-код .
Расчет калорий: Grok смог вычислить общую калорийность пяти ломтиков продукта, основываясь на фотографии таблицы пищевой ценности, где порция была указана для трех ломтиков . Рот отмечает, что такие задачи часто сбивают с толку другие визуальные модели из-за обилия мелких строк и скобок .
Понимание юмора и мемов: Модель подробно объяснила суть мема о разнице между стартапами (где все работают) и крупными корпорациями (где один копает, а остальные смотрят) . Рот шутит, что если Илон Маск, «король мемов», не сможет создать ИИ-эксперта в этой области, то в проекте вообще нет смысла .
Преобразование данных: Grok конвертировал таблицу из Википедии в формат CSV, корректно распознав заголовки столбцов и структуру данных .
Бытовая диагностика: По фотографии поврежденной деревянной доски с гвоздем ИИ определил наличие гнили (wood decay) и порекомендовал заменить доски .

🌍 Понимание физического мира и новый бенчмарк Real World QA 7:19

Для оценки того, насколько хорошо ИИ понимает пространство и физические объекты, xAI представила собственный бенчмарк под названием Real World QA . По мнению Рота, создание полезных ИИ-ассистентов невозможно без продвинутого понимания физической реальности .

Бенчмарк включает в себя более 700 изображений с вопросами и легко проверяемыми ответами . Примеры задач:

Определение размеров объектов (например, сравнение ножниц и ножа для пиццы, частично перекрытых другими предметами) .
Ориентирование в дорожной ситуации (выбор правильной полосы для поворота на основе знаков) .
Оценка дистанции и пространства для маневра автомобиля .
Определение сторон света, в которые направлен объект на фото .

Рот подчеркивает, что в этом тесте Grok занял первое место, опередив Gemini Pro 1.5 и GPT-4 Vision . Он связывает такой успех с тем, что у компаний Илона Маска (в частности, у Tesla) накоплен гигантский объем видеоданных с дорожных камер, что дает преимущество в обучении нейросетей пространственному мышлению .

📊 Сравнение с конкурентами: бенчмарки и лидерство 10:23

Помимо собственного теста, Grok 1.5V прошел через серию общепринятых индустриальных проверок:

MMMU (восприятие и рассуждение): Лидером остался Claude 3, Grok показал результат, сопоставимый с GPT-4V и Gemini 1.5 Pro, без значительного отрыва .
Math Vista (математическое зрение): Grok набрал 52,8%, что выше показателей всех конкурентов и приближается к уровню человека (около 60%) .
AI2D (понимание диаграмм): Grok (88,3%) уступил только Claude 3 Sonnet, но оказался сильнее GPT-4V и Claude 3 Opus .
Text VQA (анализ текста на изображениях): Grok стал победителем .
Doc VQA (анализ документов): Модель показала 85%, что является очень высоким результатом, хотя лидер рынка имеет 89% .

Уэс Рот делает вывод, что Grok «чертовски хорош» и сумел догнать титанов индустрии за невероятно короткий срок .

🧠 Стратегия Илона Маска: данные X и противовес Google 12:39

«Не ставьте против Илона Маска», — заявляет Рот, комментируя стремительный прогресс xAI . По его мнению, у Маска есть все необходимые слагаемые для победы: капитал, талантливые инженеры, уникальные данные, огромная база пользователей для тестирования и каналы дистрибуции .

Ведущий отмечает трансформацию платформы X: обновленная функция поиска на базе Grok впервые начала выдавать действительно релевантные новости . X становится глобальным хабом для новостей в реальном времени, что является бесценным источником данных для обучения ИИ .

Рот напоминает об истории создания OpenAI: около десяти лет назад Маск был обеспокоен тем, что Google может разработать сильный ИИ (AGI) в изоляции. Целью создания OpenAI (а теперь и xAI) было создание противовеса монополии Google . Сейчас, по словам автора, мы видим уже трех-четырех серьезных конкурентов, включая Anthropic и open-source модели вроде Mistral .

В завершение Уэс Рот упоминает о внутренних проблемах в Google. По имеющейся у него информации, Демис Хассабис, возглавляющий объединенную лабораторию Google DeepMind, испытывает глубокое разочарование из-за сохраняющейся напряженности между бывшими командами Google Brain и DeepMind . На этом фоне успехи xAI выглядят особенно впечатляющими .