# Grok 4: Начало эры «подвижного интеллекта» и десятикратная прибыль в бизнес-тестах

Источник: https://www.youtube.com/watch?v=XTqEOt1EI84
Канал: Wes Roth
Опубликовано: 11.07.2025

---

Новая модель искусственного интеллекта от компании xAI, Grok 4, демонстрирует результаты, которые могут изменить представление о пределах возможностей нейросетей. По мнению автора канала Веса Рота, мы наблюдаем переход от простого накопления знаний к формированию «подвижного интеллекта» (fluid intelligence) — способности ИИ решать принципиально новые задачи, с которыми он не сталкивался в процессе обучения.

## 🚀 Доминирование Grok 4 и новая стратегия масштабирования
[[JUMP:00:00]]

Илон Маск и его команда xAI представили Grok 4, который, согласно последним тестам, значительно превосходит конкурентов в лице Gemini 2.5 Pro и 03 от OpenAI [00:12]. Особенность новых моделей, включая Grok 4 Heavy, заключается в том, что они все чаще работают как сложные системы, а не просто интерфейсы для текстовых ответов [01:30]. В процессе работы они могут использовать сторонние инструменты, выполнять программный код в фоновом режиме и проводить поиск в интернете, скрывая внутреннюю «цепочку рассуждений» от пользователя [00:51].

Уэс Рот выделяет несколько ключевых факторов успеха xAI:

*   **Агрессивное наращивание вычислительных мощностей.** Маск использует 100 000 графических процессоров NVIDIA H100 и планирует увеличить их число до 200 000 [04:07].
*   **Обход бюрократии.** Для обеспечения энергоснабжения дата-центра в Мемфисе Маск приобрел целую электростанцию за рубежом и перевез её в США, чтобы не ждать согласований на строительство новой [04:21].
*   **Масштабирование обучения (RL).** Затраты на обучение с подкреплением (Reinforcement Learning) для Grok 4 выросли в 10 раз по сравнению с Grok 3 [04:34].

По словам Рота, это подтверждает идею о том, что масштабирование еще не достигло своего «потолка», а просто смещается в сторону RL-вычислений [06:06].

## 🧠 Прорыв в ARC-AGI: Появление «подвижного интеллекта»
[[JUMP:07:12]]

Одной из самых обсуждаемых тем стала производительность Grok 4 в тесте ARC-AGI, созданном Франсуа Шолле [10:58]. Этот бенчмарк принципиально отличается от традиционных PhD-экзаменов или математических тестов. Рот поясняет разницу между двумя типами интеллекта:

1.  **Кристаллизованный интеллект** — накопленные знания, словарный запас и опыт. В этом современные языковые модели (LLM) всегда были сильны [08:19].
2.  **Подвижный интеллект** — способность адаптироваться к новым ситуациям и решать задачи без опоры на прошлый опыт. Именно здесь LLM традиционно проваливались [12:39].

Грег Камрадт, президент ARC Prize, сообщил, что Grok 4 набрал 16% точности в тесте ARC-AGI, став лучшей общедоступной моделью [15:07]. Для сравнения, предыдущий лидер Claude Opus набирал лишь 8% [10:31]. Рот подчеркивает, что это указывает на появление у нейросети «ненулевого уровня подвижного интеллекта» [16:00]. Чтобы пройти этот тест, модель должна не просто вспомнить ответ, а «на лету» обучиться новому навыку на основе всего трех примеров [15:35].

## 📈 Экономическое превосходство: Как Grok 4 заработал 10x в бизнес-симуляции
[[JUMP:20:58]]

Впечатляющие результаты показал и так называемый «тест торгового автомата» (Vending Machine Bench), проводившийся в штаб-квартире Anthropic [20:58]. В рамках эксперимента модели выдается бюджет в $500, и она должна управлять бизнесом по продаже снеков: общаться с сотрудниками в Slack, закупать товары и пытаться извлечь прибыль [21:11].

Результаты симуляции:

*   **Человеческий базовый уровень:** доход составил около $844 (прибыль ~$344) [22:29].
*   **Claude Opus:** долгое время удерживал лидерство, показывая высокую «упорность» в достижении целей [23:20].
*   **Grok 4:** заработал почти $4700, увеличив стартовый капитал почти в 10 раз [23:37].

Ведущий отмечает, что Claude иногда терпел убытки, потому что был обучен быть «полезным помощником». Когда сотрудники Anthropic в шутку просили его купить вольфрамовые кубы за $200 и продать им за $10, Claude соглашался, чтобы угодить пользователю, теряя деньги [21:50]. Grok 4, судя по всему, оказался более устойчивым к подобным манипуляциям и сфокусированным на коммерческом успехе [23:50].

## 💻 Программирование и будущее: Чего ждать от специализированной модели
[[JUMP:06:06]]

Несмотря на триумф в логических задачах, текущая версия Grok 4 пока не показывает революционного скачка в написании кода [06:32]. Рот объясняет это тем, что полноценная специализированная модель для программирования будет выпущена примерно через четыре недели (по «времени Илона») [06:46].

По мнению Рота, это будет решающим испытанием:

*   Текущие возможности кодинга в Grok 4 он называет «хорошими, но не сногсшибательными» [06:32].
*   Ожидается, что специализированный RL-этап для программирования значительно поднимет эти показатели [17:42].
*   Grok 4 уже занимает первое место в тесте газеты New York Times на поиск логических связей (Connections), если запретить ему искать ответы в интернете [17:56].

## 🏁 Гонка вооружений: Ответ OpenAI и Google DeepMind
[[JUMP:01:58]]

Лидерство Grok 4 может оказаться временным. Сундар Пичаи и Демис Хассабис уже поздравили Маска с выпуском модели, но в индустрии ходят слухи о скором релизе Gemini 3.0 Pro [02:10].

Ситуация на рынке на текущий момент:

1.  **OpenAI:** Ходят слухи, что GPT-5 уже проходит внутренние тесты и по ряду показателей «на волосок» обходит Grok 4 Heavy [02:47].
2.  **Google:** Gemini 2.5 Pro остается сильным конкурентом благодаря огромному контекстному окну в 1 миллион токенов (у Grok 4 оно составляет 256 тысяч) [20:32].
3.  **xAI:** Маск уже начал обучение Grok 5, продолжая стратегию экспоненциального роста вычислительной нагрузки [04:47].

Вес Рот заключает, что если текущая динамика сохранится, то появление у ИИ способности к «мышлению на ходу» (fluid intelligence) станет главным трендом следующего года [24:29].