Битва за инференс: как чип Jalapeño от OpenAI и китайская GLM 5.2 обрушивают стоимость ИИ

Китайские разработчики ИИ продолжают сокращать технологический разрыв с американскими лидерами. После успеха DeepSeek индустрию всколыхнул выход новой модели GLM 5.2 от компании Zhipu (также известной как Z.AI). Эта модель с открытыми весами не только демонстрирует производительность на уровне лучших закрытых решений, но и делает ставку на «интеллект на доллар», радикально снижая стоимость внедрения ИИ для бизнеса.

🚀 Прорыв GLM 5.2: Конец монополии закрытых моделей? 1:02

Новая модель GLM 5.2 от китайской компании Zhipu вызвала ажиотаж в Кремниевой долине . В отличие от многих предыдущих релизов, этот продукт нацелен на выполнение «агентской» работы (agentic work) — сложных многошаговых задач, где модель не просто отвечает на вопрос, а планирует, пишет код и исправляет ошибки в цикле .

Гейб Перейра отметил, что GLM 5.2 стала первой моделью с открытыми весами, которая реально конкурентоспособна с такими «фронтирными» закрытыми моделями, как Opus 4.7 от Anthropic . Основные показатели модели:

Производительность в агентских задачах: На ключевых бенчмарках GLM 5.2 отстает от Opus 4.8 всего на один процентный пункт .
Экономическая эффективность: Стоимость эксплуатации модели составляет всего 1/5 от стоимости использования топовых решений Anthropic .
Скорость внедрения: Трафик токенов на платформе OpenRouter показывает, что разработчики переходят на GLM 5.2 быстрее, чем на DeepSeek в апреле .

Дейрдре Боза подчеркивает, что рынок переходит от одержимости лидербордами (кто умнее?) к прагматичному вопросу: «Что достаточно хорошо для работы и сколько стоит запустить это миллион раз?» .

🏗️ Новая архитектура корпоративного ИИ 8:41

Аарон Леви и Гейб Перейра обсуждают, как появление мощных открытых моделей меняет стратегию ИТ-директоров. Вместо использования одной самой дорогой модели для всех задач, компании переходят к гибридной схеме — «модельному роутингу» .

Подход спикеров к выбору инструментов:

Фронтирные модели (OpenAI, Anthropic): Используются в качестве «оркестраторов», планировщиков или финальных рецензентов для самых критичных задач .
Открытые модели (GLM, Llama, DeepSeek): Берут на себя основной объем работы — обработку тяжелых массивов документов, анализ текста и рутинные операции .

Аарон Леви утверждает, что разрыв между закрытыми и открытыми моделями сейчас составляет всего 3–6 месяцев . Для большинства бизнес-процессов (юридический анализ, генерация маркетинговых активов) такая задержка не является критичной и укладывается в «шум» общего процесса цифровизации компании .

Гейб Перейра добавляет, что открытые модели позволяют компаниям проводить дообучение (post-training) на собственных данных без риска передачи конфиденциальной информации владельцам закрытых платформ . Например, юридические фирмы не могут отправлять детали сделок M&A в общие облака, поэтому для них критически важна возможность запустить модель на собственных серверах .

🛠️ «Jalapeño» от OpenAI и гонка за дешевым инференсом 36:31

Пока Китай лидирует в эффективности моделей, американские гиганты переносят борьбу на уровень «железа». Стейси Расгон проанализировал анонс Jalapeño — первого специализированного чипа для инференса от OpenAI, разработанного совместно с Broadcom всего за 9 месяцев .

Ключевые факты о Jalapeño:

Снижение затрат: Генеральный директор Broadcom Хок Тан утверждает, что чип снижает стоимость исполнения ИИ-запросов примерно на 50% по сравнению с текущими GPU от Nvidia .
Скорость разработки: Использование ИИ-моделей OpenAI для проектирования архитектуры самого чипа позволило сократить цикл разработки до рекордно коротких сроков .
Масштаб: У OpenAI есть соглашение с Broadcom на поставку этих чипов общей мощностью 10 гигаватт в ближайшие 5 лет .

Стейси Расгон считает, что это не «убийца Nvidia», а расширение рынка. OpenAI одновременно закупает оборудование у Nvidia (сделка на 10 ГВт) и AMD (6 ГВт), так как аппетит индустрии к вычислительным мощностям кажется безграничным .

🌏 Геополитика и «Суверенный ИИ» 21:50

Собеседники затронули тему контроля доступа к технологиям. Аарон Леви назвал недавние ограничения экспорта моделей Anthropic (случай с Fable Mythos) «шоком для системы» .

Последствия экспортного контроля:

Смена парадигмы: Если раньше ПО считалось нейтральным товаром, то теперь доступ к интеллекту становится геополитическим рычагом .
Стимул для конкурентов: Страны ЕС и Китай осознали необходимость «суверенного ИИ» — собственных моделей, которые невозможно отключить извне .
Роль дистилляции: Китайские лаборатории успешно применяют дистилляцию — обучение маленьких дешевых моделей на ответах больших американских моделей, что позволяет им обходить ограничения и быстро догонять лидеров .

Гейб Перейра, однако, возражает против мнения, что Китай только копирует: лаборатории вроде Zhipu проводят глубокие оригинальные исследования и опережают многие западные команды в архитектуре агентских систем .

🤖 Будущее: От «синглплеера» к «мультиплееру» в ИИ 31:10

В завершение дискуссии Аарон Леви объяснил суть нового тренда — агентских команд. На примере функции Claude Team от Anthropic он показал переход от ИИ как персонального помощника к ИИ как полноценному цифровому коллеге .

Personal Mode: ИИ действует как расширение конкретного пользователя .
Team Mode: ИИ становится сущностью внутри корпоративного мессенджера (например, Slack). Он имеет доступ к общим ресурсам команды, видит контекст переписки и может самостоятельно готовить презентации или аналитические отчеты для группы сотрудников .

Стейси Расгон резюмирует ситуацию в индустрии через «парадокс Джевонса»: чем дешевле и эффективнее становится инференс (благодаря китайским открытым моделям или новым чипам Broadcom), тем выше будет спрос и тем больше ресурсов будет потреблять человечество .