xAI: Grok 3 превосходит конкурентов в тестах и логике

Эра Grok 3: xAI анонсирует прорыв в возможностях искусственного интеллекта 0:00

Компания xAI представила Grok 3 — новую версию своей языковой модели, которая, по утверждению разработчиков, на порядок превосходит предшественника. Миссия проекта остается неизменной: максимально честный поиск истины для понимания природы Вселенной, даже если это противоречит принципам «политкорректности». В презентации приняли участие ведущий Уэс Рот и ключевые инженеры xAI: Игор (Eigor), Джимми Пол и Тони.

🚀 Технологический скачок и вычислительная мощь 2:27

С момента запуска первого прототипа xAI прошло всего 17 месяцев, и прогресс компании на графиках производительности выглядит беспрецедентным. Если Grok 1, по словам команды, был «почти игрушкой» с 314 млрд параметров, то архитектура Grok 3 опирается на колоссальные вычислительные ресурсы.

Масштабирование: Команда заменила традиционные бенчмарки на показатель общего объема обучающих операций (training flops), напрямую зависящий от количества работающих GPU.
Эволюция инфраструктуры: Во время обучения Grok 2 компания столкнулась с дефицитом чипов и проблемами с питанием, имея в наличии около 6,5 тыс. эффективных H100. Чтобы ускорить разработку Grok 3, было принято решение строить собственный дата-центр.
Сжатые сроки: Первый кластер на 100 тыс. GPU был запущен за рекордные 122 дня. Позже мощность удвоили всего за 92 дня.
Эффективность: По мнению команды, Grok 3 использует в 10–15 раз больше вычислительных мощностей, чем предыдущие модели.

🧠 Логика и «Big Brain»: как мыслит Grok 3 9:17

Разработчики подчеркивают, что одной лишь предварительной тренировки (pre-training) недостаточно для создания лучшего AI. Grok 3 внедряет принципы, свойственные человеческому мышлению: самокритику, проверку гипотез и возвращение к «первым принципам» (first principles).

Тестовое время (Test-time compute): Модель способна «думать» дольше, прежде чем выдать ответ, что позволяет ей решать задачи более эффективно. Шaded-бары на графиках производительности показывают, что увеличение бюджета вычислений на этапе ответа улучшает результат.
Обобщение: Инженеры отмечают, что, несмотря на узкую специализацию тренировочных данных (математика и код), модель демонстрирует способности к решению творческих задач, таких как создание игр.
Демонстрация: В рамках «живого» теста Grok 3 успешно сгенерировал код для 3D-анимации орбитального маневра Земля-Марс и создал гибридную игру, сочетающую механики Tetris и «три в ряд».

🔍 Deep Search: агент для ответов на сложные вопросы 26:40

В ходе презентации был анонсирован новый продукт — Deep Search. Это следующее поколение поисковика, которое не просто выдает ссылки, а проводит глубокий анализ намерений пользователя, кросс-валидацию источников и синтез информации.

Транспарентность: Пользователь может видеть «ход мыслей» агента, понимая, какие источники были сочтены заслуживающими доверия, а какие — нет.
Экономия времени: Инструмент способен выполнять исследовательские задачи, на которые у человека ушли бы часы, предоставляя структурированные таблицы и резюме.

🌐 Доступность и будущее 33:02

На текущий момент Grok 3 доступен подписчикам Premium+ на платформе X. Разработчики также анонсировали запуск отдельной подписки «Super Grok» для наиболее продвинутых функций.

Платформы: Помимо веб-версии (grok.com), обновлено приложение в iOS App Store. Веб-версия будет получать обновления быстрее, так как не зависит от процесса одобрения App Store.
Голосовое взаимодействие: Функционал находится на стадии финальной полировки и будет доступен в ближайшую неделю. Особенность голоса заключается в том, что это единая мультимодальная модель, способная запоминать контекст общения.
Дальнейшие планы: xAI уже начала проектирование следующего вычислительного кластера, мощность которого будет в пять раз выше текущего (около 1,2 ГВт).