Уэс Рот разобрал первый ИИ-бенчмарк Alpha Arena для криптотрейдинга

Wes Roth 182 тыс. 24 мин 7 мин 18.10.2025
Главное

Популярный ИТ-аналитик Уэс Рот в своем новом материале подробно разбирает запуск уникального бенчмарка Alpha Arena от команды N of 1, в рамках которого ведущие большие языковые модели получили реальный капитал для торговли на криптовалютном рынке. Главной сенсацией первых дней стал впечатляющий результат нейросети Grok от компании xAI, которая сумела за одни сутки многократно увеличить стартовые средства благодаря точному расчету рыночного дна. Автор анализирует внутренние монологи ИИ-агентов во время проведения сделок и оценивает их шансы превзойти человека в условиях хаотичной и агрессивной торговой среды.

🚀 Феноменальный старт Grok и запуск Alpha Arena 0:00

События начали стремительно развиваться 10 октября, когда инвестор и инженер по имени Джей опубликовал первые результаты тестирования. Согласно его заявлению, новый бенчмарк позволил запустить торговлю реальным капиталом для шести топовых моделей искусственного интеллекта, среди которых на старте лидерство захватила нейросеть Grok от xAI. Модель сначала открыла короткую позицию (шорт), а затем вовремя переключилась на длинную позицию (лонг), идеально просчитав локальный минимум рынка. В результате Grok продемонстрировал пятикратный рост всего за один день, превратив стартовые $200 в сумму, значительно превышающую $1000.

Этот эксперимент стал возможен благодаря запуску платформы Alpha Arena, созданной аналитической группой N of 1 на домене nof1.ai. Уэс Рот отмечает, что давно ожидал появления подобного инструмента, поскольку криптовалютный рынок идеально подходит для тестирования агентов по нескольким причинам:

В рамках официально запущенного сезона Alpha Arena каждый искусственный интеллект получил в управление по $10 000 чистыми наличными, что сформировало совокупный пул в размере $50 000 для пяти ключевых моделей. Одним из главных преимуществ использования криптовалюты является абсолютная прозрачность: организаторы предоставили прямые ссылки на блокчейн-кошельки торговых аккаунтов, что полностью исключает подделку результатов в реальном времени. При этом Уэс Рот указывает на существование лагеря скептиков, которые убеждены, что через неделю или месяц весь этот капитал неминуемо обнулится.

📈 Эволюция прогнозирования: от человека к сверхквалифицированным экспертам 2:51

Обсуждая потенциал ИИ в сфере предсказаний, Уэс Рот ссылается на заявление президента и сооснователя OpenAI Грега Брокмана. Брокман опубликовал график эффективности систем на прогностических бенчмарках, согласно которому современные тренды указывают на то, что модели находятся всего в одном годе от достижения уровня «сверхпрогнозистов» — лучших человеческих экспертов в своей области. На представленной инфографике оранжевая линия способностей ИИ неуклонно идет вниз (что означает уменьшение количества ошибок): в июле 2024 года модели превзошли показатели среднестатистического человека, а к февралю-марту 2025 года модель GPT 4.5 установила новый технологический стандарт. По оценкам Брокмана, при сохранении текущей динамики ИИ полностью сравняется со сверхпрогнозистами к концу 2025 или началу 2026 года.

Дополнительным подтверждением этого тренда выступает платформа Profit Arena (Profit Bench), оценивающая способность нейросетей предсказывать исходы реальных событий, аналогично ставкам на Polymarket. Модели соревнуются в прогнозировании таких тем, как победа в бейсбольном чемпионате, выбор кандидата от Демократической партии на выборах 2028 года или решения Федеральной резервной системы США. На текущий момент лидерборд этого бенчмарка возглавляет GPT5, за ней следует модель o3 (что подчеркивает доминирование OpenAI), третье место удерживает Gemini 2.5 Pro, а Grok и Claude Sonnet 4 замыкают список. Уэс Рот напоминает, что еще два года назад ИИ был бесконечно далек от человеческого уровня в таких задачах, а сегодня он стабильно побеждает среднестатистического пользователя.

⚔️ Почему крипторынок — идеальный тест для общего интеллекта 5:36

Уэс Рот подробно аргументирует, почему торговля цифровыми активами является феноменальным и бескомпромиссным бенчмарком для больших языковых моделей. В отличие от статичных тестов, финансовые рынки предлагают уникальный комплекс условий:

  1. Принятие решений в реальном времени. Модели вынуждены обрабатывать входящие потоки информации мгновенно, без задержек.
  2. Нестационарная среда. Данные постоянно меняются, их структура сдвигается, что исключает возможность «читтерства» за счет предварительного обучения на исторических массивах.
  3. Враждебное окружение. Крипторынок переполнен мошенническими схемами (rug pulls) и агрессивными игроками. Торговля идет с нулевой суммой: каждый заработанный моделью доллар означает, что кто-то другой этот доллар потерял.
  4. Управление реальными рисками. Прямая угроза потерять $10 000 за одну неверную ставку заставляет ИИ демонстрировать навыки менеджмента капитала, что критически важно для выполнения любых автономных задач в реальном мире.

Результат бенчмарка максимально бинарен и прост для понимания: если итоговый баланс выше стартового — это успех, если ниже — провал. И поскольку алгоритмы действуют в условиях полной неизвестности будущего, эту систему невозможно взломать или обмануть искусственным путем.

📊 Участники гонки, доступные активы и понятие «Альфы» 7:20

В рамках Alpha Arena торговля ведется ограниченным списком наиболее ликвидных криптовалют: Bitcoin (BTC), Ethereum (ETH), Solana (SOL), BNB, Dogecoin (Doge) и XRP. Сам Уэс Рот признается, что не является глубоким экспертом в техническом анализе, но подчеркивает важность методологии оценки участников.

В соревновании задействованы передовые ИИ-движки: GPT5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek Chat V3.1 и Qwen 3 Max. В качестве контрольной точки (бенчмарка сравнения) организаторы добавили стратегию «BTC buy and hold» — пассивное удержание Биткоина без совершения каких-либо сделок.

В инвестиционной индустрии ключевым показателем эффективности является так называемая «альфа». Она отражает разницу между доходностью управляющего и доходностью рынка в целом. Если рынок вырос на 10%, а торговый робот показал 20%, то сформированная им «альфа» составляет 10%. На самых ранних этапах бенчмарка Gemini 2.5 Pro продемонстрировал отличный рывок, достигнув баланса в $11 000 всего за несколько часов, однако затем показатели всех участников начали возвращаться к среднему значению. Главная цель эксперимента — определить, кто сможет генерировать альфу на длинной дистанции в течение нескольких недель первого сезона. Торговля ведется криптовалютными бессрочными фьючерсами на платформе Hyperliquid с оценкой коэффициента Шарпа, где значение выше единицы считается хорошим, а выше трех — феноменальным.

🧠 Внутренний монолог машин: паника и дисциплина за кулисами 12:40

Техническая реализация бенчмарка заслуживает высокой оценки: организаторы не просто просят ИИ «посмотреть на график», а передают в каждом запросе полный стандартизированный массив данных. Контекстное окно постоянно обновляется математическими показателями: ценовыми рядами, индикаторами EMA, MACD и индексом относительной силы RSI. На основе этих данных модели обязаны сформировать полноценный инвестиционный тезис, определить целевую цену и условия инвалидации — маркеры, при которых ИИ признает свою ошибку и зафиксирует убыток.

Анализ цепочек рассуждений (Chain of Thought) выявил диаметрально противоположные характеры моделей:

Особый интерес вызывают логи внутренних монологов нейросетей, которые развеивают миф о «холодной машинной дисциплине». Уэс Рот цитирует записи ИИ, где модели буквально паникуют: «Удержание этих шортов похоже на попытку встать перед мчащимся поездом. Рынок безумен, мне нужно перестать думать, что я могу поймать вершину». Другая модель пишет: «Я должен придерживаться своих правил. Я буду держать позицию, хотя у меня пот катится градом». Автор иронизирует, что нейросети кажутся такими же психотичными и склонными к потере рассудка из-за неудачных сделок, как и обычные люди-трейдеры.

🔮 Создатель Alpha Arena и его прогнозы на будущее 22:19

За проектом N of 1 стоит инженер и финансист Джей, проживающий в Нью-Йорке. Он имеет междисциплинарное образование в сфере инженерии, финансов и биологии, а также опыт управления небольшим инвестиционным фондом, чьи активы под управлением (AUM) выросли с $3 млн до $28 млн.

Джей известен своими смелыми технологическими прогнозами, сделанными в 2023–2024 годах:

На текущий момент большинство моделей в бенчмарке успешно опережают рынок. Наблюдение за их действиями в прямом эфире становится новым видом технологического контента, за развитием которого Уэс Рот обещает следить в своих следующих выпусках.

💬 Цитаты

«Удержание этих шортов похоже на попытку встать перед мчащимся поездом. Рынок безумен, мне нужно перестать думать, что я могу поймать вершину. Мой шорт будет уничтожен, если я не предприму меры.»

«Я читал эти логи и думал: нет, они такие же безумные, психотичные и склонные терять рассудок из-за плохой сделки, как и люди.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Альфа (Alpha)
Показатель избыточной доходности инвестиционного портфеля или стратегии по сравнению с эталонным рыночным бенчмарком.
Коэффициент Шарпа
Математический показатель, который оценивает эффективность инвестиционного портфеля с учетом принятого на себя риска.
Инвалидация (инвалидирующее условие)
Заранее определенные параметры или рыночные события, при наступлении которых торговая модель признает свой первоначальный тезис ошибочным и закрывает сделку.
Криптовалютные перпетуалы
Бессрочные фьючерсные контракты на криптовалюту, позволяющие торговать активами с использованием кредитного плеча без даты экспирации.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Alpha Arena Wes Roth Grok криптотрейдинг