Как нейросеть Grok 4 обошла человека и конкурентов в сложнейших PhD-тестах?

Wes Roth 72,3 тыс. 48 мин 6 мин 10.07.2025
Главное

Компания xAI представила новые флагманские модели искусственного интеллекта Grok 4 и Grok 4 Heavy, продемонстрировав кратный рост вычислительной мощности и прорывные результаты в сложнейших академических тестах. Глава компаний Tesla, SpaceX и xAI Илон Маск вместе с командой инженеров раскрыл подробности архитектуры моделей, глубокой интеграции ИИ-агентов с инструментами и озвучил амбициозные прогнозы развития индустрии до конца 2026 года. Этот релиз, по мнению создателей, знаменует собой начало глобального «Большого взрыва» в сфере сверхчеловеческого интеллекта.

🧠 Архитектура и суперкомпьютер Colossus: 10-кратное масштабирование 2:49

Разработка нового поколения ИИ потребовала радикального наращивания инфраструктуры. Как заявляет руководство xAI, вычислительные мощности для обучения моделей увеличиваются на порядок с каждым новым поколением. Объем вычислений для Grok 4 вырос примерно в 100 раз по сравнению с показателями Grok 2, который еще 12 месяцев назад существовал только на уровне концепта.

Для реализации этого скачка xAI построила суперкомпьютер Colossus, изначально оснащенный 100 000 графических процессоров Nvidia H100 для этапа предварительного обучения (pre-training). В рамках проекта Grok 4 кластер Colossus был расширен до 200 000 GPU.

Весь этот массив дополнительной мощности был направлен инженерами в сферу обучения с подкреплением (Reinforcement Learning, RL) и логических рассуждений (reasoning). На этапе RL модель Grok 4 получила в 10 раз больше вычислительных ресурсов, чем любая из существующих сегодня на рынке конкурирующих систем. Это позволило алгоритму освоить мышление на основе первых принципов и самостоятельно исправлять собственные логические ошибки.

🏆 Абсолютное доминирование в бенчмарках: конец человеческих тестов 5:01

Показатели Grok 4 на стандартных и специализированных тестах превзошли ожидания разработчиков. Модель способна безошибочно сдавать американские экзамены SAT и демонстрирует околоидеальные результаты на последипломных экзаменах GRE по всем дисциплинам — от гуманитарных наук до физики и инженерии. На математическом тесте AIME 25 версия Grok 4 Heavy набрала максимальный балл.

Особый акцент команда xAI делает на результатах сложнейшего комплексного бенчмарка Humanities Last Exam (HLE). Тест включает в себя 2500 междисциплинарных задач уровня PhD и продвинутых научных исследований (от теории категорий до органической химии и лингвистики на базе древнееврейских текстов), составленных профильными экспертами.

Основные вехи Grok 4 на фоне конкурентов:

Илон Маск подчеркивает, что по уровню академических знаний Grok 4 превосходит абсолютное большинство выпускников аспирантур одновременно во всех существующих дисциплинах.

🤖 Одиночные агенты против Grok 4 Heavy: революция Test-Time Compute 17:50

Основным технологическим новшеством релиза стало разделение продукта на две версии: стандартную Grok 4 (работающую в режиме одиночного агента) и Grok 4 Heavy. Версия Heavy реализует концепцию масштабирования вычислений на этапе вывода (test-time compute) примерно на порядок.

При получении комплексной задачи Grok 4 Heavy параллельно запускает группу независимых ИИ-агентов. Механика их взаимодействия строится по принципу симуляции совместной работы:

  1. Каждый агент автономно ищет пути решения и формирует собственную логическую цепочку.
  2. Агенты сопоставляют результаты и обмениваются «инсайтами» (выявленными закономерностями или неочевидными триггерами в условии задачи).
  3. Вместо простого мажоритарного голосования система способна распознать единственно верное решение, даже если его нашел только один агент из группы.
  4. На основе сравнительного анализа формируется финальный скорректированный ответ.

Благодаря такой архитектурной надстройке Grok 4 Heavy смог успешно решить более 50% текстового подмножества задач сложнейшего экзамена HLE. В ходе живой демонстрации модель за 4,5 минуты проанализировала массивы данных децентрализованной платформы Polymarket и рассчитала чистый математический шанс на победу команды Dodgers в Мировой серии MLB текущего года, оценив его в 21,6%.

🔧 Эволюция работы с инструментами и интеграция с физическим миром 9:06

Принципиальным отличием Grok 4 от предшественников стала нативная интеграция инструментов (веб-поиска, калькуляторов, сред исполнения кода) непосредственно в процесс обучения. В Grok 3 использование внешних инструментов опиралось исключительно на общую способность нейросети к генерализации, что Илон Маск назвал «недостаточно надежным» подходом.

В качестве примера сложной работы с инструментами инженеры продемонстрировали генерацию физически точной визуализации слияния двух черных дыр. Модель самостоятельно обратилась к поиску, изучила университетский учебник по аналитическим моделям гравитационных волн, рассчитала необходимые физические константы и написала симуляцию на базе постньютоновских приближений, исполнив код прямо в браузере.

Вместе с тем, Илон Маск признает текущий уровень работы с инструментами относительно примитивным. По его словам, Grok пока не имеет доступа к промышленным программным комплексам уровня тех, что применяются в Tesla или SpaceX (таким как конечно-элементный анализ (FEA) или вычислительная гидродинамика (CFD)).

Интеграция подобных мощных инженерных симуляторов запланирована на конец текущего года. Финальным этапом развития концепции, по мнению Маска, станет объединение разума Grok с аппаратной платформой гуманоидных роботов Optimus. Это позволит искусственному интеллекту выйти за рамки цифровой среды, самостоятельно формулировать гипотезы и проверять их законами физики в реальном мире.

💬 Новое голосовое ядро, API для бизнеса и создание игр 31:39

В рамках релиза xAI обновила голосовой режим Grok Voice, сократив сквозную задержку ответа (end-to-end latency) в 2 раза за последние 18 недель, что увеличило базу активных пользователей функции в 10 раз. Разработчики представили новые эмоционально лабильные голоса: глубокий мужской кинематографический тембр S и британский женский голос Eve, способный переходить на шепот или исполнять оперные арии по запросу пользователя. В живом тесте на скорость реакции и бесконфликтное перебивание Grok продемонстрировал превосходство над неназванными ИИ-конкурентами.

Одновременно xAI открыла коммерческий доступ к Grok 4 через API с окном контекста в 256k токенов. Среди первых корпоративных клиентов отмечены:

🔮 Экономика будущего, кризис данных и дорожная карта xAI 13:08

Главным нетехническим вызовом для индустрии ИИ Илон Маск и инженеры xAI называют проблему «бутылочного горлышка» данных для обучения с подкреплением. По мере того как нейросети становятся умнее, человечество стремительно исчерпывает запасы сложных текстовых задач и тестовых вопросов. Решением этой проблемы в xAI считают замыкание контура обучения ИИ напрямую через физическую реальность.

Ближайшие вехи развития xAI на 2026 год включают:

Илон Маск озвучил ряд радикальных прогнозов. По его мнению, уже к концу этого года ИИ сможет самостоятельно совершать полезные технологические открытия, а в течение двух лет — откроет «новую физику». Маск ожидает появление первых полноценных медиапродуктов, созданных исключительно ИИ: получасового качественного ТВ-шоу уже в текущем году и полнометражного фильма — в следующем.

В долгосрочной перспективе, за счет тотальной роботизации и автоматизации бизнеса (даже на базовом уровне ИИ-управления сетями торговых автоматов, симулированном в тесте Vending Bench), мировая экономика может вырасти в тысячи или миллионы раз. Маск полагает, что это позволит человечеству пройти большую часть шкалы Кардашёва до уровня Type 1 (полное освоение энергии планеты), на которой сейчас цивилизация находится лишь на отметке в 1–2%.

💬 Цитаты

«Мы находимся в самом начале колоссального взрыва интеллекта. Мы переживаем Большой взрыв разума прямо сейчас.»

Илон Маск 11:18

«Поскольку физика — это единственный закон, всё остальное — лишь рекомендация. Вы не можете нарушить физику.»

Илон Маск 16:54
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Test-time compute
Концепция увеличения вычислительной мощности непосредственно во время генерации ответа за счет запуска дополнительных алгоритмов проверки или мультиагентного анализа.
Шкала Кардашёва
Метод классификации технологических цивилизаций по количеству энергии, которое они способны использовать для своих нужд.
Reinforcement Learning (RL)
Обучение с подкреплением — метод машинного обучения, при котором модель улучшает свои навыки, получая награду за правильные действия и штраф за ошибки.
HLE (Humanities Last Exam)
Сверхсложный современный бенчмарк из 2500 междисциплинарных вопросов академического уровня PhD для проверки продвинутого мышления ИИ.
📊 Цифры
🗓 Хронология
  1. Май 2025 года Период, когда модель Grok 2 находилась исключительно на стадии концептуального проектирования.
  2. Май 2026 года Официальная презентация моделей Grok 4 и Grok 4 Heavy, запуск коммерческого API и подписки Super Grok.
  3. Июнь 2026 года Ожидаемое завершение обучения 7-й версии базовой модели xAI с исправленным мультимодальным зрением и релиз быстрой код-модели.
  4. Конец 2026 года Планируемая интеграция Grok с симуляторами Tesla/SpaceX и возможные первые автономные научные открытия, сделанные ИИ.
  5. 2027 год Прогнозируемый Илоном Маском запуск первых полноценных видеоигр и фильмов, целиком сгенерированных нейросетями.
⚖️ Другая сторона
Искусственный интеллект xAI Grok 4 Илон Маск Colossus Grok 4 Heavy