Как нейросеть Grok 4 обошла человека и конкурентов в сложнейших PhD-тестах?

Компания xAI представила новые флагманские модели искусственного интеллекта Grok 4 и Grok 4 Heavy, продемонстрировав кратный рост вычислительной мощности и прорывные результаты в сложнейших академических тестах. Глава компаний Tesla, SpaceX и xAI Илон Маск вместе с командой инженеров раскрыл подробности архитектуры моделей, глубокой интеграции ИИ-агентов с инструментами и озвучил амбициозные прогнозы развития индустрии до конца 2026 года. Этот релиз, по мнению создателей, знаменует собой начало глобального «Большого взрыва» в сфере сверхчеловеческого интеллекта.

🧠 Архитектура и суперкомпьютер Colossus: 10-кратное масштабирование 2:49

Разработка нового поколения ИИ потребовала радикального наращивания инфраструктуры. Как заявляет руководство xAI, вычислительные мощности для обучения моделей увеличиваются на порядок с каждым новым поколением. Объем вычислений для Grok 4 вырос примерно в 100 раз по сравнению с показателями Grok 2, который еще 12 месяцев назад существовал только на уровне концепта.

Для реализации этого скачка xAI построила суперкомпьютер Colossus, изначально оснащенный 100 000 графических процессоров Nvidia H100 для этапа предварительного обучения (pre-training). В рамках проекта Grok 4 кластер Colossus был расширен до 200 000 GPU.

Весь этот массив дополнительной мощности был направлен инженерами в сферу обучения с подкреплением (Reinforcement Learning, RL) и логических рассуждений (reasoning). На этапе RL модель Grok 4 получила в 10 раз больше вычислительных ресурсов, чем любая из существующих сегодня на рынке конкурирующих систем. Это позволило алгоритму освоить мышление на основе первых принципов и самостоятельно исправлять собственные логические ошибки.

🏆 Абсолютное доминирование в бенчмарках: конец человеческих тестов 5:01

Показатели Grok 4 на стандартных и специализированных тестах превзошли ожидания разработчиков. Модель способна безошибочно сдавать американские экзамены SAT и демонстрирует околоидеальные результаты на последипломных экзаменах GRE по всем дисциплинам — от гуманитарных наук до физики и инженерии. На математическом тесте AIME 25 версия Grok 4 Heavy набрала максимальный балл.

Особый акцент команда xAI делает на результатах сложнейшего комплексного бенчмарка Humanities Last Exam (HLE). Тест включает в себя 2500 междисциплинарных задач уровня PhD и продвинутых научных исследований (от теории категорий до органической химии и лингвистики на базе древнееврейских текстов), составленных профильными экспертами.

Основные вехи Grok 4 на фоне конкурентов:

Предыдущие стандарты: В начале года большинство доступных фронтирных моделей показывали в HLE однозначную точность (в пределах 1–9%).
Результат базовой модели: Одиночный агент Grok 4 без использования сторонних инструментов смог правильно решить 25% задач HLE.
Частный бенчмарк ARC-AGI V2: На приватной выборке теста модель от xAI стала единственной в индустрии за последние три месяца, преодолевшей барьер в 10%, и показала результат 15,8% точности.
Эффективность относительно Claude: Результат на ARC-AGI V2 оказался вдвое выше показателей модели Claude 4 Opus, занимающей вторую строчку.

Илон Маск подчеркивает, что по уровню академических знаний Grok 4 превосходит абсолютное большинство выпускников аспирантур одновременно во всех существующих дисциплинах.

🤖 Одиночные агенты против Grok 4 Heavy: революция Test-Time Compute 17:50

Основным технологическим новшеством релиза стало разделение продукта на две версии: стандартную Grok 4 (работающую в режиме одиночного агента) и Grok 4 Heavy. Версия Heavy реализует концепцию масштабирования вычислений на этапе вывода (test-time compute) примерно на порядок.

При получении комплексной задачи Grok 4 Heavy параллельно запускает группу независимых ИИ-агентов. Механика их взаимодействия строится по принципу симуляции совместной работы:

Каждый агент автономно ищет пути решения и формирует собственную логическую цепочку.
Агенты сопоставляют результаты и обмениваются «инсайтами» (выявленными закономерностями или неочевидными триггерами в условии задачи).
Вместо простого мажоритарного голосования система способна распознать единственно верное решение, даже если его нашел только один агент из группы.
На основе сравнительного анализа формируется финальный скорректированный ответ.

Благодаря такой архитектурной надстройке Grok 4 Heavy смог успешно решить более 50% текстового подмножества задач сложнейшего экзамена HLE. В ходе живой демонстрации модель за 4,5 минуты проанализировала массивы данных децентрализованной платформы Polymarket и рассчитала чистый математический шанс на победу команды Dodgers в Мировой серии MLB текущего года, оценив его в 21,6%.

🔧 Эволюция работы с инструментами и интеграция с физическим миром 9:06

Принципиальным отличием Grok 4 от предшественников стала нативная интеграция инструментов (веб-поиска, калькуляторов, сред исполнения кода) непосредственно в процесс обучения. В Grok 3 использование внешних инструментов опиралось исключительно на общую способность нейросети к генерализации, что Илон Маск назвал «недостаточно надежным» подходом.

В качестве примера сложной работы с инструментами инженеры продемонстрировали генерацию физически точной визуализации слияния двух черных дыр. Модель самостоятельно обратилась к поиску, изучила университетский учебник по аналитическим моделям гравитационных волн, рассчитала необходимые физические константы и написала симуляцию на базе постньютоновских приближений, исполнив код прямо в браузере.

Вместе с тем, Илон Маск признает текущий уровень работы с инструментами относительно примитивным. По его словам, Grok пока не имеет доступа к промышленным программным комплексам уровня тех, что применяются в Tesla или SpaceX (таким как конечно-элементный анализ (FEA) или вычислительная гидродинамика (CFD)).

Интеграция подобных мощных инженерных симуляторов запланирована на конец текущего года. Финальным этапом развития концепции, по мнению Маска, станет объединение разума Grok с аппаратной платформой гуманоидных роботов Optimus. Это позволит искусственному интеллекту выйти за рамки цифровой среды, самостоятельно формулировать гипотезы и проверять их законами физики в реальном мире.

💬 Новое голосовое ядро, API для бизнеса и создание игр 31:39

В рамках релиза xAI обновила голосовой режим Grok Voice, сократив сквозную задержку ответа (end-to-end latency) в 2 раза за последние 18 недель, что увеличило базу активных пользователей функции в 10 раз. Разработчики представили новые эмоционально лабильные голоса: глубокий мужской кинематографический тембр S и британский женский голос Eve, способный переходить на шепот или исполнять оперные арии по запросу пользователя. В живом тесте на скорость реакции и бесконфликтное перебивание Grok продемонстрировал превосходство над неназванными ИИ-конкурентами.

Одновременно xAI открыла коммерческий доступ к Grok 4 через API с окном контекста в 256k токенов. Среди первых корпоративных клиентов отмечены:

Arc Institute: Ведущий биомедицинский исследовательский центр использует API для экспресс-анализа миллионов логов экспериментов и верификации гипотез в рамках редактирования генома CRISPR.
Сектор медицинской визуализации: Модель показала лучшие в своем классе результаты при независимой оценке рентгенограмм грудной клетки.
Геймдев-индустрия: Независимый разработчик под ником Denny с помощью API Grok 4 сумел с нуля создать работающий 3D-шутер от первого лица всего за 4 часа. Нейросеть полностью взяла на себя рутинную часть работы по автоматическому поиску, сортировке и техническому обслуживанию графических ассетов и текстур.

🔮 Экономика будущего, кризис данных и дорожная карта xAI 13:08

Главным нетехническим вызовом для индустрии ИИ Илон Маск и инженеры xAI называют проблему «бутылочного горлышка» данных для обучения с подкреплением. По мере того как нейросети становятся умнее, человечество стремительно исчерпывает запасы сложных текстовых задач и тестовых вопросов. Решением этой проблемы в xAI считают замыкание контура обучения ИИ напрямую через физическую реальность.

Ближайшие вехи развития xAI на 2026 год включают:

Устранение «частичной слепоты» модели: Текущая версия Grok 4 уступает конкурентам в мультимодальном анализе изображений. Для исправления этого дефекта уже завершается обучение 7-й версии базовой модели ИИ.
Специализированный инструмент: В течение нескольких недель xAI обещает выпустить узкопрофильную ускоренную модель для написания кода.
Суперкластер для видеогенерации: Через 3–4 недели xAI начнет масштабное обучение специализированной видеомодели на базе новейшего кластера из более чем 100 000 ускорителей Nvidia GB200.

Илон Маск озвучил ряд радикальных прогнозов. По его мнению, уже к концу этого года ИИ сможет самостоятельно совершать полезные технологические открытия, а в течение двух лет — откроет «новую физику». Маск ожидает появление первых полноценных медиапродуктов, созданных исключительно ИИ: получасового качественного ТВ-шоу уже в текущем году и полнометражного фильма — в следующем.

В долгосрочной перспективе, за счет тотальной роботизации и автоматизации бизнеса (даже на базовом уровне ИИ-управления сетями торговых автоматов, симулированном в тесте Vending Bench), мировая экономика может вырасти в тысячи или миллионы раз. Маск полагает, что это позволит человечеству пройти большую часть шкалы Кардашёва до уровня Type 1 (полное освоение энергии планеты), на которой сейчас цивилизация находится лишь на отметке в 1–2%.