# Уэс Рот о Grok 3: «Новый король бенчмарков с 200 000 GPU от Nvidia»

Источник: https://www.youtube.com/watch?v=Rxbirwpq9FA
Канал: Wes Roth
Опубликовано: 18.02.2025

---

Компания xAI Илона Маска официально представила Grok 3 — новую итерацию своей языковой модели, которая, согласно первым тестам и бенчмаркам, претендует на звание самой мощной ИИ-системы в мире. Ведущий технологического канала Wes Roth проанализировал результаты запуска, данные о колоссальных вычислительных мощностях проекта и первые независимые тесты модели в сложных задачах по физике и программированию.

## 🏆 Абсолютное лидерство в Chatbot Arena и бенчмарках
[[JUMP:0:00]]

Grok 3 продемонстрировал впечатляющие результаты в слепых тестах Chatbot Arena, где он ранее фигурировал под кодовым названием «chocolate» [05:55]. Модель стала первой в истории, преодолевшей отметку в 1400 баллов в рейтинге, и заняла первое место сразу во всех категориях [06:34]. 

Согласно данным, представленным Уэсом Ротом, Grok 3 лидирует в следующих дисциплинах:

*   Общий рейтинг сложности (Hard Prompts) [07:14].
*   Написание программного кода (Coding) [07:20].
*   Математические вычисления (Math).
*   Креативное письмо (Creative writing).
*   Следование сложным инструкциям (Instruction following).
*   Работа с длинными запросами и многоходовые диалоги.

Особое внимание автор уделяет результатам математического конкурса AIME 2025. В отличие от задач 2024 года, которые могли попасть в обучающую выборку современных моделей, задачи 2025 года являются «чистым» тестом на способность к рассуждению [07:53]. По словам Рота, Grok 3 и Grok 3 Mini набрали 90 и 93 балла соответственно, обойдя модель o3-mini-high от OpenAI, которая показала результат около 87 баллов [08:21].

## 🏗️ Проект Colossus: «Factorio» в реальной жизни
[[JUMP:01:32]]

Успех Grok 3 Уэс Рот напрямую связывает с беспрецедентным масштабом вычислительного кластера Colossus, принадлежащего xAI. Илон Маск, по словам ведущего, в шутку сравнивает строительство этой инфраструктуры со стратегической игрой Factorio на максимальной скорости [01:40].

Ключевые факты о кластере Colossus:

*   Общее количество GPU: 200 000 ускорителей Nvidia [01:45].
*   Первая фаза: развертывание 100 000 GPU заняло всего 122 дня с момента начала обучения «с нуля».
*   Вторая фаза: расширение до 200 000 GPU за 92 дня [01:50].
*   Будущие планы: Илон Маск намерен увеличить мощность кластера в пять раз — до 1 миллиона GPU [02:35].

Ведущий подчеркивает, что такие темпы роста и объем инвестиций подтверждают актуальность «законов масштабирования» (Scaling Laws). Рот считает, что если у компании есть капитал для покупки такого количества чипов, она может буквально «выкупить» себе место в авангарде ИИ-разработок, обогнав конкурентов за счет грубой вычислительной силы [02:13]. Обучение Grok 3 потребовало в 10–15 раз больше вычислений, чем предыдущая версия Grok 2 [09:50].

## 🧪 Тестирование в реальных условиях: физика и код
[[JUMP:03:10]]

Несмотря на триумфальные цифры, первые независимые тесты показали, что модель не лишена изъянов. Уэс Рот в прямом эфире пытался решить с помощью Grok 3 сложную физическую задачу, предложенную доктором Кайлом (PhD в области физики черных дыр). Доктор Кайл ранее использовал модель o1 от OpenAI для написания кода своей диссертации [03:36].

Результаты тестирования оказались неоднозначными:

1.  В первом стриме Grok 3 выдал неверный ответ на сложную задачу, которую доктор Кайл ранее отправлял на «Последний экзамен человечества» (Humanity's Last Exam) [04:00].
2.  Однако в последующем стриме самого доктора Кайла модель всё же смогла прийти к корректному результату [04:19].
3.  Рот протестировал Grok 3 в написании игры «Змейка», играющей в саму себя с помощью нейросети на PyTorch. Модель успешно создала пайплайн для обучения с подкреплением, хотя на этапе отладки возникли небольшие трудности, которые автор списал на общую усталость в ходе ночного стрима [04:58].

## 💎 Super Grok и новые возможности
[[JUMP:02:43]]

Вместе с запуском новой модели xAI обновила структуру подписок. Пользователи Premium Plus получают доступ к стандартному Grok, но представлен и новый уровень — Super Grok [02:43].

Этот тариф предоставляет:

*   Гарантированный приоритетный доступ к Grok 3.
*   Функцию Deep Search (глубокий поиск).
*   Режим Think (рассуждение), который делает модель «рассуждающей» (reasoning model) аналогично серии o1 от OpenAI [02:56].
*   Новый голосовой режим, который уже начали тестировать ранние пользователи [03:00].

## 📈 Будущее рынка и доминирование Nvidia
[[JUMP:09:03]]

Рот отмечает, что кейс Grok 3 является мощным аргументом в пользу Nvidia и необходимости гигантских инвестиций в железо. После выхода моделей типа DeepSeek возникли сомнения в необходимости огромных кластеров, но прогресс xAI доказывает обратное [09:20]. По мнению автора, спрос на GPU останется «заоблачным», так как Grok 3 совершил прыжок, пропустив промежуточные этапы развития, которые проходили OpenAI (от o1 к o3) [01:06].

В завершение Уэс Рот пришел к выводу, что Grok 3 на текущий момент выглядит как новый «король» среди доступных ИИ-моделей, хотя для окончательного вердикта потребуется больше стресс-тестов в специфических сценариях использования [08:50].

---
В качестве финальной ремарки автор поделился шуткой: «Знаете, куда попадают плохие радуги? В призму (prison/prism). Не волнуйтесь, это легкий приговор (light sentence), как раз чтобы было время на размышления (reflect)» [10:08].