Запуск новой модели Grok 4 Fast от компании xAI Илона Маска вызвал широкий резонанс в индустрии искусственного интеллекта. Ведущий YouTube-канала Wes Roth анализирует, почему эта модель ломает привычные представления о соотношении цены и производительности, и как агрессивная ставка на обучение с подкреплением (Reinforcement Learning) позволяет xAI обходить признанных технологических гигантов.
🚀 Ценовой прорыв Grok 4 Fast 0:00
На рынке сложился определенный кластер передовых моделей: Gemini 1.5 Pro, GPT-5 Hive и Claude 3.5 Opus. Традиционно более «умные» и способные модели располагаются в правой верхней части графиков, что означает их высокую стоимость . Облегченные или «быстрые» версии (Flash, Minimal) обычно значительно слабее флагманов. Однако Grok 4 Fast демонстрирует аномальные показатели: модель находится выше Gemini 1.5 Pro и Claude 3.5 Sonnet по ряду индексов, оставаясь при этом намного дешевле даже их «бюджетных» версий .
Основные характеристики Grok 4 Fast:
- Стоимость: Модель в 47 раз дешевле предыдущих итераций Grok .
- Контекстное окно: 2 миллиона токенов, что Уэс Рот называет новым стандартом для экономически эффективного ИИ .
- Цена через API: $0,20 за 1 миллион входных токенов и $0,50 за 1 миллион выходных .
- Доступность: На ограниченное время модель доступна бесплатно через OpenRouter и Vercel AI Gateway .
🧠 Секрет успеха: Масштабирование RL 5:46
Ведущий подчеркивает, что успех Grok обусловлен не просто увеличением параметров, а колоссальным объемом вычислений, направленных на обучение с подкреплением (Reinforcement Learning, RL) . По мнению Уэса Рота, xAI нашла эффективный способ масштабирования модели через «тренажерный зал RL» (RL Gym), о котором ранее упоминал Андрей Карпатый .
Джон Кабучио, специалист по RL в xAI, подтвердил, что команда внедрила новую внутреннюю агентную структуру (agent framework), которая стала ядром обучения Grok 4 Fast и будет использоваться во всех будущих прогонах . Это позволяет максимально эффективно задействовать мощности суперкомпьютера Colossus 2 .
Автор видео выделяет ключевые тренды в развитии RL:
- Смена приоритетов в вычислениях: Со временем затраты на RL-вычисления станут значительно больше, чем на предварительное обучение (pre-training) .
- Эффективность в сложных задачах: RL-подход уже доказал свою состоятельность, позволяя моделям OpenAI и DeepSeek выигрывать золотые медали в престижных математических и кодинговых олимпиадах .
- Принцип Парето: Уэс Рот считает, что Илон Маск сделал ставку на RL как на «рычаг», который сдвинет всю индустрию, в то время как Марк Цукерберг в Meta больше инвестирует в таланты .
📊 Доминирование в тестах и бенчмарках 3:59
В рейтинге LM Arena (Search Arena), который оценивает способность моделей работать с поиском информации в реальном времени и цитированием источников, Grok 4 Fast занял первое место, незначительно опередив поисковые версии GPT-5 и o3 . Хотя доверительный интервал пока широк из-за небольшого количества голосов, это серьезный показатель для модели такого ценового сегмента.
Результаты в других дисциплинах:
- Текстовый лидерборд: Разделил 8-е место, что является отличным результатом для «быстрой» модели .
- ARC-AGI: Модели Grok традиционно показывают высокие результаты в этом тесте на общий интеллект .
- NYT Connections: По утверждению ведущего, Grok 4 Fast «разгромил» новый бенчмарк, основанный на игре от New York Times .
Уэс Рот отмечает, что LM Arena — это слепое тестирование реальными пользователями, поэтому эти результаты сложно подделать .
🤝 Звездный состав: Переход Дастина Трэна в xAI 10:40
Важным событием для компании стал переход Дастина Трэна из Google DeepMind, где он проработал 8 лет . Трэн участвовал в ключевых прорывах Google, включая подготовку Gemini к победам в олимпиадах IMO и ICPC. В своем посте он упомянул использование «Reward heads» — технологии, при которой скрытые представления ответов модели сохраняются для последующего использования в качестве вознаграждения в RL .
Трэн утверждает, что xAI обладает уникальной концентрацией вычислительных мощностей на одного сотрудника, превосходящей даже Google . По его мнению, Grok 4 — это крупнейшая ставка в индустрии на масштабирование RL и пост-обучение .
🔮 Будущее: Grok 5 и путь к AGI 19:48
Илон Маск недавно заявил, что Grok 5 может достичь уровня AGI (общего искусственного интеллекта) . Уэс Рот признает, что порог AGI размыт, но предлагает эмпирическое правило: если половина людей считает систему AGI, а половина — нет, значит, мы уже там .
Автор видео приводит аналогию с экспериментом OpenAI «Прятки» (Hide and Seek), чтобы показать мощь RL:
- На 1-й итерации агенты ведут себя хаотично .
- К 10 млн игр они начинают использовать препятствия .
- К 400 млн итераций они строят сложные укрытия и замки .
- После 1 млрд итераций агенты нашли «глитч» в физике симуляции, позволяющий катапультироваться через стены, о чем не знали даже разработчики .
Уэс Рот задается вопросом: какие «глитчи» в реальном мире, экономике или физике может обнаружить ИИ, если применить к нему такие же масштабы RL? Звучат предположения о сверхчеловеческом убеждении или открытии способов получения безграничной энергии . По словам ведущего, Frontier Labs (ведущие лаборатории ИИ) должны быть серьезно обеспокоены скоростью развития xAI .