Grok 1.5 Vision: как новая модель xAI обходит GPT-4 и Claude в бенчмарках

Wes Roth 89,1 тыс. 16 мин 4 мин 13.04.2024
Главное

Компания xAI Илона Маска представила Grok 1.5 Vision (Grok 1.5V) — первую мультимодальную модель в своей линейке, способную обрабатывать не только текст, но и широкий спектр визуальной информации. Ведущий канала Уэс Рот анализирует результаты тестов, которые показывают, что новая модель успешно конкурирует с лидерами рынка в лице GPT-4V, Claude 3 и Gemini 1.5 Pro.

🚀 Новый игрок в высшей лиге: анонс Grok 1.5 Vision 0:00

12 апреля 2024 года компания xAI официально представила предварительную версию Grok 1.5 Vision . По словам разработчиков, эта модель призвана соединить цифровой и физический миры. В дополнение к сильным текстовым возможностям, Grok теперь может обрабатывать документы, диаграммы, графики, скриншоты и фотографии .

Уэс Рот отмечает, что анонс вызвал огромный интерес, набрав 4,7 миллиона просмотров всего за несколько часов . На текущем этапе доступ к модели скоро получат ранние тестеры и существующие пользователи Grok на платформе X .

Одной из ключевых особенностей тестирования Grok 1.5V является использование режима «zero-shot» (без предварительных примеров) и отсутствие техники Chain of Thought (цепочки рассуждений) при проведении бенчмарков . Рот подчеркивает, что это важная деталь, так как многие компании прибегают к различным уловкам при демонстрации возможностей своих нейросетей, в то время как xAI показывает «чистую» производительность .

🛠 От эскиза до кода: практические возможности модели 3:23

В качестве доказательства эффективности Grok разработчики представили серию примеров, демонстрирующих понимание контекста и логики визуальных данных:

🌍 Понимание физического мира и новый бенчмарк Real World QA 7:19

Для оценки того, насколько хорошо ИИ понимает пространство и физические объекты, xAI представила собственный бенчмарк под названием Real World QA . По мнению Рота, создание полезных ИИ-ассистентов невозможно без продвинутого понимания физической реальности .

Бенчмарк включает в себя более 700 изображений с вопросами и легко проверяемыми ответами . Примеры задач:

Рот подчеркивает, что в этом тесте Grok занял первое место, опередив Gemini Pro 1.5 и GPT-4 Vision . Он связывает такой успех с тем, что у компаний Илона Маска (в частности, у Tesla) накоплен гигантский объем видеоданных с дорожных камер, что дает преимущество в обучении нейросетей пространственному мышлению .

📊 Сравнение с конкурентами: бенчмарки и лидерство 10:23

Помимо собственного теста, Grok 1.5V прошел через серию общепринятых индустриальных проверок:

  1. MMMU (восприятие и рассуждение): Лидером остался Claude 3, Grok показал результат, сопоставимый с GPT-4V и Gemini 1.5 Pro, без значительного отрыва .
  2. Math Vista (математическое зрение): Grok набрал 52,8%, что выше показателей всех конкурентов и приближается к уровню человека (около 60%) .
  3. AI2D (понимание диаграмм): Grok (88,3%) уступил только Claude 3 Sonnet, но оказался сильнее GPT-4V и Claude 3 Opus .
  4. Text VQA (анализ текста на изображениях): Grok стал победителем .
  5. Doc VQA (анализ документов): Модель показала 85%, что является очень высоким результатом, хотя лидер рынка имеет 89% .

Уэс Рот делает вывод, что Grok «чертовски хорош» и сумел догнать титанов индустрии за невероятно короткий срок .

🧠 Стратегия Илона Маска: данные X и противовес Google 12:39

«Не ставьте против Илона Маска», — заявляет Рот, комментируя стремительный прогресс xAI . По его мнению, у Маска есть все необходимые слагаемые для победы: капитал, талантливые инженеры, уникальные данные, огромная база пользователей для тестирования и каналы дистрибуции .

Ведущий отмечает трансформацию платформы X: обновленная функция поиска на базе Grok впервые начала выдавать действительно релевантные новости . X становится глобальным хабом для новостей в реальном времени, что является бесценным источником данных для обучения ИИ .

Рот напоминает об истории создания OpenAI: около десяти лет назад Маск был обеспокоен тем, что Google может разработать сильный ИИ (AGI) в изоляции. Целью создания OpenAI (а теперь и xAI) было создание противовеса монополии Google . Сейчас, по словам автора, мы видим уже трех-четырех серьезных конкурентов, включая Anthropic и open-source модели вроде Mistral .

В завершение Уэс Рот упоминает о внутренних проблемах в Google. По имеющейся у него информации, Демис Хассабис, возглавляющий объединенную лабораторию Google DeepMind, испытывает глубокое разочарование из-за сохраняющейся напряженности между бывшими командами Google Brain и DeepMind . На этом фоне успехи xAI выглядят особенно впечатляющими .

💬 Цитаты

«Я должен это сказать: не ставьте против Илона Маска.»

«Grok был создан как ИИ, ищущий истину... он должен понимать истину Вселенной.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Multimodal model
Модель искусственного интеллекта, способная обрабатывать и объединять данные разных типов, например, текст и изображения.
Zero-shot setting
Метод тестирования модели, при котором ей не дают предварительных примеров решения задачи.
Chain of Thought
Техника подсказок, заставляющая модель рассуждать пошагово перед тем, как выдать итоговый ответ.
AGI
Сильный искусственный интеллект общего уровня, способный выполнять любую интеллектуальную задачу, доступную человеку.
📊 Цифры
🗓 Хронология
  1. 2014-2015 Илон Маск и Сэм Альтман основывают OpenAI как противовес Google.
  2. 12 апреля 2024 xAI анонсирует мультимодальную модель Grok 1.5 Vision.
⚖️ Другая сторона
Искусственный интеллект Grok 1.5 Vision xAI Илон Маск GPT-4 Vision Claude 3 Opus