# Grok 1.5 Vision: как новая модель xAI обходит GPT-4 и Claude в бенчмарках

Источник: https://www.youtube.com/watch?v=s7kfifYX43w
Канал: Wes Roth
Опубликовано: 13.04.2024

---

Компания xAI Илона Маска представила Grok 1.5 Vision (Grok 1.5V) — первую мультимодальную модель в своей линейке, способную обрабатывать не только текст, но и широкий спектр визуальной информации. Ведущий канала Уэс Рот анализирует результаты тестов, которые показывают, что новая модель успешно конкурирует с лидерами рынка в лице GPT-4V, Claude 3 и Gemini 1.5 Pro.

## 🚀 Новый игрок в высшей лиге: анонс Grok 1.5 Vision
[[JUMP:00:00]]

12 апреля 2024 года компания xAI официально представила предварительную версию Grok 1.5 Vision [00:41]. По словам разработчиков, эта модель призвана соединить цифровой и физический миры. В дополнение к сильным текстовым возможностям, Grok теперь может обрабатывать документы, диаграммы, графики, скриншоты и фотографии [00:54].

Уэс Рот отмечает, что анонс вызвал огромный интерес, набрав 4,7 миллиона просмотров всего за несколько часов [00:00]. На текущем этапе доступ к модели скоро получат ранние тестеры и существующие пользователи Grok на платформе X [00:54]. 

Одной из ключевых особенностей тестирования Grok 1.5V является использование режима «zero-shot» (без предварительных примеров) и отсутствие техники Chain of Thought (цепочки рассуждений) при проведении бенчмарков [01:34]. Рот подчеркивает, что это важная деталь, так как многие компании прибегают к различным уловкам при демонстрации возможностей своих нейросетей, в то время как xAI показывает «чистую» производительность [02:00].

## 🛠 От эскиза до кода: практические возможности модели
[[JUMP:03:23]]

В качестве доказательства эффективности Grok разработчики представили серию примеров, демонстрирующих понимание контекста и логики визуальных данных:

*   **Написание кода по диаграмме:** Модель успешно перевела нарисованную на доске блок-схему игры «угадай число» в полноценный Python-код [03:48].
*   **Расчет калорий:** Grok смог вычислить общую калорийность пяти ломтиков продукта, основываясь на фотографии таблицы пищевой ценности, где порция была указана для трех ломтиков [04:28]. Рот отмечает, что такие задачи часто сбивают с толку другие визуальные модели из-за обилия мелких строк и скобок [04:41].
*   **Понимание юмора и мемов:** Модель подробно объяснила суть мема о разнице между стартапами (где все работают) и крупными корпорациями (где один копает, а остальные смотрят) [05:22]. Рот шутит, что если Илон Маск, «король мемов», не сможет создать ИИ-эксперта в этой области, то в проекте вообще нет смысла [05:08].
*   **Преобразование данных:** Grok конвертировал таблицу из Википедии в формат CSV, корректно распознав заголовки столбцов и структуру данных [05:47].
*   **Бытовая диагностика:** По фотографии поврежденной деревянной доски с гвоздем ИИ определил наличие гнили (wood decay) и порекомендовал заменить доски [06:12]. 

## 🌍 Понимание физического мира и новый бенчмарк Real World QA
[[JUMP:07:19]]

Для оценки того, насколько хорошо ИИ понимает пространство и физические объекты, xAI представила собственный бенчмарк под названием **Real World QA** [07:57]. По мнению Рота, создание полезных ИИ-ассистентов невозможно без продвинутого понимания физической реальности [07:31].

Бенчмарк включает в себя более 700 изображений с вопросами и легко проверяемыми ответами [09:31]. Примеры задач:

*   Определение размеров объектов (например, сравнение ножниц и ножа для пиццы, частично перекрытых другими предметами) [08:24].
*   Ориентирование в дорожной ситуации (выбор правильной полосы для поворота на основе знаков) [08:37].
*   Оценка дистанции и пространства для маневра автомобиля [09:02].
*   Определение сторон света, в которые направлен объект на фото [09:16].

Рот подчеркивает, что в этом тесте Grok занял первое место, опередив Gemini Pro 1.5 и GPT-4 Vision [10:37]. Он связывает такой успех с тем, что у компаний Илона Маска (в частности, у Tesla) накоплен гигантский объем видеоданных с дорожных камер, что дает преимущество в обучении нейросетей пространственному мышлению [09:44].

## 📊 Сравнение с конкурентами: бенчмарки и лидерство
[[JUMP:10:23]]

Помимо собственного теста, Grok 1.5V прошел через серию общепринятых индустриальных проверок:

1.  **MMMU (восприятие и рассуждение):** Лидером остался Claude 3, Grok показал результат, сопоставимый с GPT-4V и Gemini 1.5 Pro, без значительного отрыва [11:05].
2.  **Math Vista (математическое зрение):** Grok набрал 52,8%, что выше показателей всех конкурентов и приближается к уровню человека (около 60%) [11:32].
3.  **AI2D (понимание диаграмм):** Grok (88,3%) уступил только Claude 3 Sonnet, но оказался сильнее GPT-4V и Claude 3 Opus [11:45].
4.  **Text VQA (анализ текста на изображениях):** Grok стал победителем [12:12].
5.  **Doc VQA (анализ документов):** Модель показала 85%, что является очень высоким результатом, хотя лидер рынка имеет 89% [12:26].

Уэс Рот делает вывод, что Grok «чертовски хорош» и сумел догнать титанов индустрии за невероятно короткий срок [12:37].

## 🧠 Стратегия Илона Маска: данные X и противовес Google
[[JUMP:12:39]]

«Не ставьте против Илона Маска», — заявляет Рот, комментируя стремительный прогресс xAI [12:39]. По его мнению, у Маска есть все необходимые слагаемые для победы: капитал, талантливые инженеры, уникальные данные, огромная база пользователей для тестирования и каналы дистрибуции [13:20].

Ведущий отмечает трансформацию платформы X: обновленная функция поиска на базе Grok впервые начала выдавать действительно релевантные новости [12:54]. X становится глобальным хабом для новостей в реальном времени, что является бесценным источником данных для обучения ИИ [13:20].

Рот напоминает об истории создания OpenAI: около десяти лет назад Маск был обеспокоен тем, что Google может разработать сильный ИИ (AGI) в изоляции. Целью создания OpenAI (а теперь и xAI) было создание противовеса монополии Google [14:00]. Сейчас, по словам автора, мы видим уже трех-четырех серьезных конкурентов, включая Anthropic и open-source модели вроде Mistral [14:37].

В завершение Уэс Рот упоминает о внутренних проблемах в Google. По имеющейся у него информации, Демис Хассабис, возглавляющий объединенную лабораторию Google DeepMind, испытывает глубокое разочарование из-за сохраняющейся напряженности между бывшими командами Google Brain и DeepMind [15:29]. На этом фоне успехи xAI выглядят особенно впечатляющими [15:54].