Уэс Рот о Grok 3: «Новый король бенчмарков с 200 000 GPU от Nvidia»

Компания xAI Илона Маска официально представила Grok 3 — новую итерацию своей языковой модели, которая, согласно первым тестам и бенчмаркам, претендует на звание самой мощной ИИ-системы в мире. Ведущий технологического канала Wes Roth проанализировал результаты запуска, данные о колоссальных вычислительных мощностях проекта и первые независимые тесты модели в сложных задачах по физике и программированию.

🏆 Абсолютное лидерство в Chatbot Arena и бенчмарках 0:00

Grok 3 продемонстрировал впечатляющие результаты в слепых тестах Chatbot Arena, где он ранее фигурировал под кодовым названием «chocolate» . Модель стала первой в истории, преодолевшей отметку в 1400 баллов в рейтинге, и заняла первое место сразу во всех категориях .

Согласно данным, представленным Уэсом Ротом, Grok 3 лидирует в следующих дисциплинах:

Общий рейтинг сложности (Hard Prompts) .
Написание программного кода (Coding) .
Математические вычисления (Math).
Креативное письмо (Creative writing).
Следование сложным инструкциям (Instruction following).
Работа с длинными запросами и многоходовые диалоги.

Особое внимание автор уделяет результатам математического конкурса AIME 2025. В отличие от задач 2024 года, которые могли попасть в обучающую выборку современных моделей, задачи 2025 года являются «чистым» тестом на способность к рассуждению . По словам Рота, Grok 3 и Grok 3 Mini набрали 90 и 93 балла соответственно, обойдя модель o3-mini-high от OpenAI, которая показала результат около 87 баллов .

🏗️ Проект Colossus: «Factorio» в реальной жизни 1:32

Успех Grok 3 Уэс Рот напрямую связывает с беспрецедентным масштабом вычислительного кластера Colossus, принадлежащего xAI. Илон Маск, по словам ведущего, в шутку сравнивает строительство этой инфраструктуры со стратегической игрой Factorio на максимальной скорости .

Ключевые факты о кластере Colossus:

Общее количество GPU: 200 000 ускорителей Nvidia .
Первая фаза: развертывание 100 000 GPU заняло всего 122 дня с момента начала обучения «с нуля».
Вторая фаза: расширение до 200 000 GPU за 92 дня .
Будущие планы: Илон Маск намерен увеличить мощность кластера в пять раз — до 1 миллиона GPU .

Ведущий подчеркивает, что такие темпы роста и объем инвестиций подтверждают актуальность «законов масштабирования» (Scaling Laws). Рот считает, что если у компании есть капитал для покупки такого количества чипов, она может буквально «выкупить» себе место в авангарде ИИ-разработок, обогнав конкурентов за счет грубой вычислительной силы . Обучение Grok 3 потребовало в 10–15 раз больше вычислений, чем предыдущая версия Grok 2 .

🧪 Тестирование в реальных условиях: физика и код 3:10

Несмотря на триумфальные цифры, первые независимые тесты показали, что модель не лишена изъянов. Уэс Рот в прямом эфире пытался решить с помощью Grok 3 сложную физическую задачу, предложенную доктором Кайлом (PhD в области физики черных дыр). Доктор Кайл ранее использовал модель o1 от OpenAI для написания кода своей диссертации .

Результаты тестирования оказались неоднозначными:

В первом стриме Grok 3 выдал неверный ответ на сложную задачу, которую доктор Кайл ранее отправлял на «Последний экзамен человечества» (Humanity's Last Exam) .
Однако в последующем стриме самого доктора Кайла модель всё же смогла прийти к корректному результату .
Рот протестировал Grok 3 в написании игры «Змейка», играющей в саму себя с помощью нейросети на PyTorch. Модель успешно создала пайплайн для обучения с подкреплением, хотя на этапе отладки возникли небольшие трудности, которые автор списал на общую усталость в ходе ночного стрима .

💎 Super Grok и новые возможности 2:43

Вместе с запуском новой модели xAI обновила структуру подписок. Пользователи Premium Plus получают доступ к стандартному Grok, но представлен и новый уровень — Super Grok .

Этот тариф предоставляет:

Гарантированный приоритетный доступ к Grok 3.
Функцию Deep Search (глубокий поиск).
Режим Think (рассуждение), который делает модель «рассуждающей» (reasoning model) аналогично серии o1 от OpenAI .
Новый голосовой режим, который уже начали тестировать ранние пользователи .

📈 Будущее рынка и доминирование Nvidia 9:03

Рот отмечает, что кейс Grok 3 является мощным аргументом в пользу Nvidia и необходимости гигантских инвестиций в железо. После выхода моделей типа DeepSeek возникли сомнения в необходимости огромных кластеров, но прогресс xAI доказывает обратное . По мнению автора, спрос на GPU останется «заоблачным», так как Grok 3 совершил прыжок, пропустив промежуточные этапы развития, которые проходили OpenAI (от o1 к o3) .

В завершение Уэс Рот пришел к выводу, что Grok 3 на текущий момент выглядит как новый «король» среди доступных ИИ-моделей, хотя для окончательного вердикта потребуется больше стресс-тестов в специфических сценариях использования .

В качестве финальной ремарки автор поделился шуткой: «Знаете, куда попадают плохие радуги? В призму (prison/prism). Не волнуйтесь, это легкий приговор (light sentence), как раз чтобы было время на размышления (reflect)» .