Уэс Рот о Grok 3: «Новый король бенчмарков с 200 000 GPU от Nvidia»

Wes Roth 96,7 тыс. 10 мин 4 мин 18.02.2025
Главное

Компания xAI Илона Маска официально представила Grok 3 — новую итерацию своей языковой модели, которая, согласно первым тестам и бенчмаркам, претендует на звание самой мощной ИИ-системы в мире. Ведущий технологического канала Wes Roth проанализировал результаты запуска, данные о колоссальных вычислительных мощностях проекта и первые независимые тесты модели в сложных задачах по физике и программированию.

🏆 Абсолютное лидерство в Chatbot Arena и бенчмарках 0:00

Grok 3 продемонстрировал впечатляющие результаты в слепых тестах Chatbot Arena, где он ранее фигурировал под кодовым названием «chocolate» . Модель стала первой в истории, преодолевшей отметку в 1400 баллов в рейтинге, и заняла первое место сразу во всех категориях .

Согласно данным, представленным Уэсом Ротом, Grok 3 лидирует в следующих дисциплинах:

Особое внимание автор уделяет результатам математического конкурса AIME 2025. В отличие от задач 2024 года, которые могли попасть в обучающую выборку современных моделей, задачи 2025 года являются «чистым» тестом на способность к рассуждению . По словам Рота, Grok 3 и Grok 3 Mini набрали 90 и 93 балла соответственно, обойдя модель o3-mini-high от OpenAI, которая показала результат около 87 баллов .

🏗️ Проект Colossus: «Factorio» в реальной жизни 1:32

Успех Grok 3 Уэс Рот напрямую связывает с беспрецедентным масштабом вычислительного кластера Colossus, принадлежащего xAI. Илон Маск, по словам ведущего, в шутку сравнивает строительство этой инфраструктуры со стратегической игрой Factorio на максимальной скорости .

Ключевые факты о кластере Colossus:

Ведущий подчеркивает, что такие темпы роста и объем инвестиций подтверждают актуальность «законов масштабирования» (Scaling Laws). Рот считает, что если у компании есть капитал для покупки такого количества чипов, она может буквально «выкупить» себе место в авангарде ИИ-разработок, обогнав конкурентов за счет грубой вычислительной силы . Обучение Grok 3 потребовало в 10–15 раз больше вычислений, чем предыдущая версия Grok 2 .

🧪 Тестирование в реальных условиях: физика и код 3:10

Несмотря на триумфальные цифры, первые независимые тесты показали, что модель не лишена изъянов. Уэс Рот в прямом эфире пытался решить с помощью Grok 3 сложную физическую задачу, предложенную доктором Кайлом (PhD в области физики черных дыр). Доктор Кайл ранее использовал модель o1 от OpenAI для написания кода своей диссертации .

Результаты тестирования оказались неоднозначными:

  1. В первом стриме Grok 3 выдал неверный ответ на сложную задачу, которую доктор Кайл ранее отправлял на «Последний экзамен человечества» (Humanity's Last Exam) .
  2. Однако в последующем стриме самого доктора Кайла модель всё же смогла прийти к корректному результату .
  3. Рот протестировал Grok 3 в написании игры «Змейка», играющей в саму себя с помощью нейросети на PyTorch. Модель успешно создала пайплайн для обучения с подкреплением, хотя на этапе отладки возникли небольшие трудности, которые автор списал на общую усталость в ходе ночного стрима .

💎 Super Grok и новые возможности 2:43

Вместе с запуском новой модели xAI обновила структуру подписок. Пользователи Premium Plus получают доступ к стандартному Grok, но представлен и новый уровень — Super Grok .

Этот тариф предоставляет:

📈 Будущее рынка и доминирование Nvidia 9:03

Рот отмечает, что кейс Grok 3 является мощным аргументом в пользу Nvidia и необходимости гигантских инвестиций в железо. После выхода моделей типа DeepSeek возникли сомнения в необходимости огромных кластеров, но прогресс xAI доказывает обратное . По мнению автора, спрос на GPU останется «заоблачным», так как Grok 3 совершил прыжок, пропустив промежуточные этапы развития, которые проходили OpenAI (от o1 к o3) .

В завершение Уэс Рот пришел к выводу, что Grok 3 на текущий момент выглядит как новый «король» среди доступных ИИ-моделей, хотя для окончательного вердикта потребуется больше стресс-тестов в специфических сценариях использования .


В качестве финальной ремарки автор поделился шуткой: «Знаете, куда попадают плохие радуги? В призму (prison/prism). Не волнуйтесь, это легкий приговор (light sentence), как раз чтобы было время на размышления (reflect)» .

💬 Цитаты

«Это похоже на скоростное прохождение Factorio в реальной жизни.»

Уэс Рот (цитируя Илона Маска) 01:40

«Grok 3 теперь новый правящий король, и это сложно отрицать.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
AIME 2025
Американский математический экзамен, используемый для тестирования способности ИИ к сложным вычислениям и рассуждениям.
Scaling Laws
Эмпирические закономерности, согласно которым качество ИИ-моделей растет пропорционально объему данных и вычислительной мощности.
Reasoning model
Модель, способная к «цепочке рассуждений» перед выдачей финального ответа, что критично для математики и программирования.
📊 Цифры
🗓 Хронология
  1. Май-Июль 2024 Развертывание первой фазы Colossus на 100 000 GPU за 122 дня
  2. Конец 2024 Расширение кластера до 200 000 GPU за 92 дня
  3. Февраль 2025 Официальный релиз Grok 3 и лидерство в Chatbot Arena
⚖️ Другая сторона
Искусственный интеллект xAI Grok 3 Илон Маск Nvidia Colossus