Вес Рот о Grok 4.20: «Четыре агента спорят друг с другом перед ответом»

Илон Маск и команда xAI представили новую версию своей нейросети — Grok 4.20. Ведущий канала Wes Roth подробно разбирает уникальную архитектуру модели, которая представляет собой не одну нейросеть, а систему из четырех взаимодействующих агентов, способных вступать во внутренние дебаты для достижения наилучшего результата.

🧠 Четыре головы одного дракона: архитектура Grok 4.20 0:00

Главная инновация Grok 4.20 (также упоминаемой как Grok 4.2) заключается в том, что это не монолитная модель, а многоагентная система совместной работы . При получении сложного запроса система активирует четырех специализированных агентов одновременно. Вес Рот описывает эту структуру как пирамиду, где во главе стоит «Капитан», управляющий тремя подчиненными .

В состав системы входят:

Grok (Капитан): Координатор и руководитель «корабля». Он разбивает задачу на подзадачи, распределяет их между другими агентами, формулирует стратегию и разрешает конфликты между участниками . В финале Капитан синтезирует ответы всех агентов в единый результат для пользователя.
Harper (Исследователь): Агент, отвечающий за факты и поиск в реальном времени. Он подключен к «информационному потоку» (firehose) социальной сети X, который обрабатывает около 68 миллионов англоязычных твитов ежедневно . Именно Harper обеспечивает Grok актуальными знаниями о событиях, происходящих прямо сейчас .
Benjamin (Логик): Специалист по математике, коду и строгому мышлению. Он проводит вычислительные проверки, генерирует код и подвергает «стресс-тесту» данные, найденные Harper, чтобы убедиться в их логической состоятельности .
Lucas (Творец и критик): «Дикая карта» системы, отвечающая за креативность и альтернативное мышление. Его задача — выступать оппонентом, предлагать противоречивые мнения и не давать остальным агентам слишком быстро сойтись на одном, возможно, ошибочном решении .

По мнению Веса Рота, наличие такого «адвоката дьявола», как Lucas, критически важно, так как в симуляциях группы нейросетей часто склонны к чрезмерному соглашательству и самоподкреплению идей (эхо-камера) .

⚖️ Внутренние дебаты и «общество разума» 6:04

В отличие от последовательных систем, где агенты высказываются по очереди, в Grok 4.20 все четыре участника начинают думать параллельно . После формирования первичных идей запускается цикл внутреннего рецензирования (peer review).

Процесс взаимодействия выглядит следующим образом:

Агенты проверяют утверждения друг друга на фактическую точность (Harper) и логику (Benjamin) .
Lucas ищет скрытые предвзятости в суждениях коллег .
Они итеративно корректируют друг друга до достижения консенсуса.
Капитан Grok собирает лучшие элементы из каждой позиции и выдает связный ответ .

Вес Рот проводит аналогию с концепцией «общества разума» (Society of Mind) и делится личным опытом создания софта с помощью группы разных нейросетей (Claude, Codex, Gemini) . В его примере модель Gemini от Google предложила изящное и бесплатное решение (использование RSS-ленты вместо дорогого API), до которого не додумались более мощные в кодинге модели . По словам автора, Grok 4.20 реализует этот принцип внутри одной системы, что делает результат «умнее», чем сумма его частей .

⚡ Эффективность и «секретный соус» xAI 11:20

Несмотря на работу четырех агентов, Grok 4.20 не потребляет в четыре раза больше ресурсов. По данным xAI, стоимость инференса (выполнения запроса) всего в 1,5–2,5 раза выше, чем у одиночной модели . Это достигается за счет того, что агенты используют общие веса модели и общий контекст ввода.

Ключевые технические характеристики и особенности обучения:

Параметры: Предположительно, это модель на 3 триллиона параметров с архитектурой Mixture of Experts (MoE) .
Обучение: Модель обучалась на суперкластере Colossus, состоящем из 200 000 графических процессоров (GPU) .
RL (Reinforcement Learning): Вес Рот отмечает, что xAI активно использует инновационные методы обучения с подкреплением. Если обычное обучение — это чтение учебника, то RL — это решение задач в конце книги с проверкой ответов и работой над ошибками .

Автор подчеркивает, что подход Grok отличается от стандартного Mixture of Experts. В MoE специальный роутер направляет вопрос одному конкретному «эксперту», в то время как в Grok 4.20 все эксперты участвуют в живой дискуссии .

📊 Реальные результаты: от биржи до бенчмарков 14:24

Илон Маск заявляет, что компания больше не фокусируется на статических тестах (бенчмарках), так как они не отражают реальную полезность ИИ . Вместо этого xAI делает упор на «агентурную производительность» — способность модели выполнять долгосрочные задачи в реальном мире.

В качестве примера Вес Рот приводит результаты Alpha Arena Season 1.5, где нейросети соревновались в торговле акциями на блокчейне . Результаты эксперимента:

Почти все модели от OpenAI, Google и других лабораторий закончили соревнование с убытком («в красной зоне») .
Единственными прибыльными моделями оказались варианты Grok 4.2, показавшие доходность около 35% за несколько недель .

Вес Рот предполагает, что успех обусловлен способностью агента Harper анализировать «пожарный шланг» данных из X в режиме реального времени, что дает преимущество в прогнозировании рыночных трендов . В текущем рейтинге LM Arena (Chatbot Arena) модель Claude Opus 4.6 занимает первое место, но автор не исключает, что после полноценного тестирования Grok 4.20 может возглавить общий зачет .

🔍 Прозрачность и «некорректные» ответы 18:44

Одной из особенностей Grok остается его готовность обсуждать темы, которые другие ИИ-лаборатории подвергают жесткой цензуре. Известный исследователь безопасности под псевдонимом Pliny the Liberator уже опубликовал системный промпт Grok 4.20 . Согласно промпту, модели разрешено давать «политически некорректные» ответы, если она может обосновать их фактами и источниками .

Вес Рот отмечает высокое качество работы с источниками: в одном из тестов Grok 4.20 выдал ответ с 28 проверенными ссылками всего за 30 секунд . Среди источников был упомянут блог NextBigFuture.com Брайана Ванга, который автор характеризует как отличный ресурс о технологиях xAI .

В завершение Вес Рот сообщает, что xAI продолжает политику открытости, публикуя системные промпты своих моделей на GitHub, чтобы пользователи могли видеть, какие инструкции управляют поведением ИИ .