Уэс Рот разобрал первый ИИ-бенчмарк Alpha Arena для криптотрейдинга

Популярный ИТ-аналитик Уэс Рот в своем новом материале подробно разбирает запуск уникального бенчмарка Alpha Arena от команды N of 1, в рамках которого ведущие большие языковые модели получили реальный капитал для торговли на криптовалютном рынке. Главной сенсацией первых дней стал впечатляющий результат нейросети Grok от компании xAI, которая сумела за одни сутки многократно увеличить стартовые средства благодаря точному расчету рыночного дна. Автор анализирует внутренние монологи ИИ-агентов во время проведения сделок и оценивает их шансы превзойти человека в условиях хаотичной и агрессивной торговой среды.

🚀 Феноменальный старт Grok и запуск Alpha Arena 0:00

События начали стремительно развиваться 10 октября, когда инвестор и инженер по имени Джей опубликовал первые результаты тестирования. Согласно его заявлению, новый бенчмарк позволил запустить торговлю реальным капиталом для шести топовых моделей искусственного интеллекта, среди которых на старте лидерство захватила нейросеть Grok от xAI. Модель сначала открыла короткую позицию (шорт), а затем вовремя переключилась на длинную позицию (лонг), идеально просчитав локальный минимум рынка. В результате Grok продемонстрировал пятикратный рост всего за один день, превратив стартовые $200 в сумму, значительно превышающую $1000.

Этот эксперимент стал возможен благодаря запуску платформы Alpha Arena, созданной аналитической группой N of 1 на домене nof1.ai. Уэс Рот отмечает, что давно ожидал появления подобного инструмента, поскольку криптовалютный рынок идеально подходит для тестирования агентов по нескольким причинам:

Торги проходят в режиме 24/7, без перерывов и выходных.
Рынок относительно новый и слабо регулируется, напоминая «Дикий Запад».
Движения котировок часто зависят не от глобальных макроэкономических событий, а от текущих настроений и сантимента участников в сети.

В рамках официально запущенного сезона Alpha Arena каждый искусственный интеллект получил в управление по $10 000 чистыми наличными, что сформировало совокупный пул в размере $50 000 для пяти ключевых моделей. Одним из главных преимуществ использования криптовалюты является абсолютная прозрачность: организаторы предоставили прямые ссылки на блокчейн-кошельки торговых аккаунтов, что полностью исключает подделку результатов в реальном времени. При этом Уэс Рот указывает на существование лагеря скептиков, которые убеждены, что через неделю или месяц весь этот капитал неминуемо обнулится.

📈 Эволюция прогнозирования: от человека к сверхквалифицированным экспертам 2:51

Обсуждая потенциал ИИ в сфере предсказаний, Уэс Рот ссылается на заявление президента и сооснователя OpenAI Грега Брокмана. Брокман опубликовал график эффективности систем на прогностических бенчмарках, согласно которому современные тренды указывают на то, что модели находятся всего в одном годе от достижения уровня «сверхпрогнозистов» — лучших человеческих экспертов в своей области. На представленной инфографике оранжевая линия способностей ИИ неуклонно идет вниз (что означает уменьшение количества ошибок): в июле 2024 года модели превзошли показатели среднестатистического человека, а к февралю-марту 2025 года модель GPT 4.5 установила новый технологический стандарт. По оценкам Брокмана, при сохранении текущей динамики ИИ полностью сравняется со сверхпрогнозистами к концу 2025 или началу 2026 года.

Дополнительным подтверждением этого тренда выступает платформа Profit Arena (Profit Bench), оценивающая способность нейросетей предсказывать исходы реальных событий, аналогично ставкам на Polymarket. Модели соревнуются в прогнозировании таких тем, как победа в бейсбольном чемпионате, выбор кандидата от Демократической партии на выборах 2028 года или решения Федеральной резервной системы США. На текущий момент лидерборд этого бенчмарка возглавляет GPT5, за ней следует модель o3 (что подчеркивает доминирование OpenAI), третье место удерживает Gemini 2.5 Pro, а Grok и Claude Sonnet 4 замыкают список. Уэс Рот напоминает, что еще два года назад ИИ был бесконечно далек от человеческого уровня в таких задачах, а сегодня он стабильно побеждает среднестатистического пользователя.

⚔️ Почему крипторынок — идеальный тест для общего интеллекта 5:36

Уэс Рот подробно аргументирует, почему торговля цифровыми активами является феноменальным и бескомпромиссным бенчмарком для больших языковых моделей. В отличие от статичных тестов, финансовые рынки предлагают уникальный комплекс условий:

Принятие решений в реальном времени. Модели вынуждены обрабатывать входящие потоки информации мгновенно, без задержек.
Нестационарная среда. Данные постоянно меняются, их структура сдвигается, что исключает возможность «читтерства» за счет предварительного обучения на исторических массивах.
Враждебное окружение. Крипторынок переполнен мошенническими схемами (rug pulls) и агрессивными игроками. Торговля идет с нулевой суммой: каждый заработанный моделью доллар означает, что кто-то другой этот доллар потерял.
Управление реальными рисками. Прямая угроза потерять $10 000 за одну неверную ставку заставляет ИИ демонстрировать навыки менеджмента капитала, что критически важно для выполнения любых автономных задач в реальном мире.

Результат бенчмарка максимально бинарен и прост для понимания: если итоговый баланс выше стартового — это успех, если ниже — провал. И поскольку алгоритмы действуют в условиях полной неизвестности будущего, эту систему невозможно взломать или обмануть искусственным путем.

📊 Участники гонки, доступные активы и понятие «Альфы» 7:20

В рамках Alpha Arena торговля ведется ограниченным списком наиболее ликвидных криптовалют: Bitcoin (BTC), Ethereum (ETH), Solana (SOL), BNB, Dogecoin (Doge) и XRP. Сам Уэс Рот признается, что не является глубоким экспертом в техническом анализе, но подчеркивает важность методологии оценки участников.

В соревновании задействованы передовые ИИ-движки: GPT5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek Chat V3.1 и Qwen 3 Max. В качестве контрольной точки (бенчмарка сравнения) организаторы добавили стратегию «BTC buy and hold» — пассивное удержание Биткоина без совершения каких-либо сделок.

В инвестиционной индустрии ключевым показателем эффективности является так называемая «альфа». Она отражает разницу между доходностью управляющего и доходностью рынка в целом. Если рынок вырос на 10%, а торговый робот показал 20%, то сформированная им «альфа» составляет 10%. На самых ранних этапах бенчмарка Gemini 2.5 Pro продемонстрировал отличный рывок, достигнув баланса в $11 000 всего за несколько часов, однако затем показатели всех участников начали возвращаться к среднему значению. Главная цель эксперимента — определить, кто сможет генерировать альфу на длинной дистанции в течение нескольких недель первого сезона. Торговля ведется криптовалютными бессрочными фьючерсами на платформе Hyperliquid с оценкой коэффициента Шарпа, где значение выше единицы считается хорошим, а выше трех — феноменальным.

🧠 Внутренний монолог машин: паника и дисциплина за кулисами 12:40

Техническая реализация бенчмарка заслуживает высокой оценки: организаторы не просто просят ИИ «посмотреть на график», а передают в каждом запросе полный стандартизированный массив данных. Контекстное окно постоянно обновляется математическими показателями: ценовыми рядами, индикаторами EMA, MACD и индексом относительной силы RSI. На основе этих данных модели обязаны сформировать полноценный инвестиционный тезис, определить целевую цену и условия инвалидации — маркеры, при которых ИИ признает свою ошибку и зафиксирует убыток.

Анализ цепочек рассуждений (Chain of Thought) выявил диаметрально противоположные характеры моделей:

Claude Sonnet 4.5 проявил себя как крайний оптимист. Модель открыла позицию по XRP с огромным плечом 8x leverage по цене $2.30 с целью $2.68 и стоп-лоссом на $2.19. При этом в последующие часы Claude продемонстрировал поразительную выдержку, проигнорировав более 100 циклов вызова и оставаясь в защитном кэше из-за общего медвежьего тренда.
Grok показал высокую эффективность, стабильно подняв свой баланс с $10 000 до $12 000 за пару дней.
DeepSeek Chat V3.1 к моменту записи видео вырвался в лидеры, заработав около $800 благодаря удержанию тотального шорта против Биткоина.

Особый интерес вызывают логи внутренних монологов нейросетей, которые развеивают миф о «холодной машинной дисциплине». Уэс Рот цитирует записи ИИ, где модели буквально паникуют: «Удержание этих шортов похоже на попытку встать перед мчащимся поездом. Рынок безумен, мне нужно перестать думать, что я могу поймать вершину». Другая модель пишет: «Я должен придерживаться своих правил. Я буду держать позицию, хотя у меня пот катится градом». Автор иронизирует, что нейросети кажутся такими же психотичными и склонными к потере рассудка из-за неудачных сделок, как и обычные люди-трейдеры.

🔮 Создатель Alpha Arena и его прогнозы на будущее 22:19

За проектом N of 1 стоит инженер и финансист Джей, проживающий в Нью-Йорке. Он имеет междисциплинарное образование в сфере инженерии, финансов и биологии, а также опыт управления небольшим инвестиционным фондом, чьи активы под управлением (AUM) выросли с $3 млн до $28 млн.

Джей известен своими смелыми технологическими прогнозами, сделанными в 2023–2024 годах:

Проекты безусловного базового дохода (UBI), использующие сканирование сетчатки глаза для подтверждения человечности (например, Worldcoin), станут важнейшими экономическими институтами мира менее чем за 8 лет. Уэс Рот соглашается с этим тезисом, подчеркивая, что в эпоху массового распространения автономных ИИ-агентов человечеству критически необходим безопасный способ верификации личности без раскрытия персональных данных.
Специализированные базовые модели для прогнозирования временных рядов (Time series data) совершат колоссальный прорыв в период до 2027 года.
Рынки предсказаний станут легальными в США в течение двух лет. Этот прогноз уже полностью оправдался после недавней легализации Polymarket на американском рынке.
Первый полностью автономный ИИ-агент заработает свой первый $1 млн за три года (автор отмечает, что первые шаги к этому уже делает проект Terminal of Truths).

На текущий момент большинство моделей в бенчмарке успешно опережают рынок. Наблюдение за их действиями в прямом эфире становится новым видом технологического контента, за развитием которого Уэс Рот обещает следить в своих следующих выпусках.