Компания xAI Илона Маска официально представила Grok 3 — новую итерацию своей языковой модели, которая, согласно первым тестам и бенчмаркам, претендует на звание самой мощной ИИ-системы в мире. Ведущий технологического канала Wes Roth проанализировал результаты запуска, данные о колоссальных вычислительных мощностях проекта и первые независимые тесты модели в сложных задачах по физике и программированию.
🏆 Абсолютное лидерство в Chatbot Arena и бенчмарках 0:00
Grok 3 продемонстрировал впечатляющие результаты в слепых тестах Chatbot Arena, где он ранее фигурировал под кодовым названием «chocolate» . Модель стала первой в истории, преодолевшей отметку в 1400 баллов в рейтинге, и заняла первое место сразу во всех категориях .
Согласно данным, представленным Уэсом Ротом, Grok 3 лидирует в следующих дисциплинах:
- Общий рейтинг сложности (Hard Prompts) .
- Написание программного кода (Coding) .
- Математические вычисления (Math).
- Креативное письмо (Creative writing).
- Следование сложным инструкциям (Instruction following).
- Работа с длинными запросами и многоходовые диалоги.
Особое внимание автор уделяет результатам математического конкурса AIME 2025. В отличие от задач 2024 года, которые могли попасть в обучающую выборку современных моделей, задачи 2025 года являются «чистым» тестом на способность к рассуждению . По словам Рота, Grok 3 и Grok 3 Mini набрали 90 и 93 балла соответственно, обойдя модель o3-mini-high от OpenAI, которая показала результат около 87 баллов .
🏗️ Проект Colossus: «Factorio» в реальной жизни 1:32
Успех Grok 3 Уэс Рот напрямую связывает с беспрецедентным масштабом вычислительного кластера Colossus, принадлежащего xAI. Илон Маск, по словам ведущего, в шутку сравнивает строительство этой инфраструктуры со стратегической игрой Factorio на максимальной скорости .
Ключевые факты о кластере Colossus:
- Общее количество GPU: 200 000 ускорителей Nvidia .
- Первая фаза: развертывание 100 000 GPU заняло всего 122 дня с момента начала обучения «с нуля».
- Вторая фаза: расширение до 200 000 GPU за 92 дня .
- Будущие планы: Илон Маск намерен увеличить мощность кластера в пять раз — до 1 миллиона GPU .
Ведущий подчеркивает, что такие темпы роста и объем инвестиций подтверждают актуальность «законов масштабирования» (Scaling Laws). Рот считает, что если у компании есть капитал для покупки такого количества чипов, она может буквально «выкупить» себе место в авангарде ИИ-разработок, обогнав конкурентов за счет грубой вычислительной силы . Обучение Grok 3 потребовало в 10–15 раз больше вычислений, чем предыдущая версия Grok 2 .
🧪 Тестирование в реальных условиях: физика и код 3:10
Несмотря на триумфальные цифры, первые независимые тесты показали, что модель не лишена изъянов. Уэс Рот в прямом эфире пытался решить с помощью Grok 3 сложную физическую задачу, предложенную доктором Кайлом (PhD в области физики черных дыр). Доктор Кайл ранее использовал модель o1 от OpenAI для написания кода своей диссертации .
Результаты тестирования оказались неоднозначными:
- В первом стриме Grok 3 выдал неверный ответ на сложную задачу, которую доктор Кайл ранее отправлял на «Последний экзамен человечества» (Humanity's Last Exam) .
- Однако в последующем стриме самого доктора Кайла модель всё же смогла прийти к корректному результату .
- Рот протестировал Grok 3 в написании игры «Змейка», играющей в саму себя с помощью нейросети на PyTorch. Модель успешно создала пайплайн для обучения с подкреплением, хотя на этапе отладки возникли небольшие трудности, которые автор списал на общую усталость в ходе ночного стрима .
💎 Super Grok и новые возможности 2:43
Вместе с запуском новой модели xAI обновила структуру подписок. Пользователи Premium Plus получают доступ к стандартному Grok, но представлен и новый уровень — Super Grok .
Этот тариф предоставляет:
- Гарантированный приоритетный доступ к Grok 3.
- Функцию Deep Search (глубокий поиск).
- Режим Think (рассуждение), который делает модель «рассуждающей» (reasoning model) аналогично серии o1 от OpenAI .
- Новый голосовой режим, который уже начали тестировать ранние пользователи .
📈 Будущее рынка и доминирование Nvidia 9:03
Рот отмечает, что кейс Grok 3 является мощным аргументом в пользу Nvidia и необходимости гигантских инвестиций в железо. После выхода моделей типа DeepSeek возникли сомнения в необходимости огромных кластеров, но прогресс xAI доказывает обратное . По мнению автора, спрос на GPU останется «заоблачным», так как Grok 3 совершил прыжок, пропустив промежуточные этапы развития, которые проходили OpenAI (от o1 к o3) .
В завершение Уэс Рот пришел к выводу, что Grok 3 на текущий момент выглядит как новый «король» среди доступных ИИ-моделей, хотя для окончательного вердикта потребуется больше стресс-тестов в специфических сценариях использования .
В качестве финальной ремарки автор поделился шуткой: «Знаете, куда попадают плохие радуги? В призму (prison/prism). Не волнуйтесь, это легкий приговор (light sentence), как раз чтобы было время на размышления (reflect)» .