Токеномика ИИ: как превратить вычислительные мощности в реальную прибыль

В новом выпуске подкаста NVIDIA AI ведущий Ноа Кравиц обсуждает со Шрути Копакар, экспертом команды ускоренных вычислений NVIDIA, концепцию «токеномики». В условиях, когда дата-центры превращаются в «фабрики ИИ», понимание экономики производства и потребления токенов становится критически важным для бизнес-лидеров, стремящихся извлечь реальную ценность из внедрения искусственного интеллекта.

💎 Четыре столпа токеномики: от теории к практике 1:04

По определению Шрути Копакар, токеномика — это дисциплина, изучающая то, как токены оцениваются, поставляются, потребляются и монетизируются . Для успешного развертывания ИИ-решений организации должны понимать четыре ключевых элемента этой системы:

Ценность (Utility/Value): Понимание того, какую пользу приносит конкретный токен.
Предложение (Supply): Принятие решений об инфраструктуре, которые максимизируют выход токенов при минимизации затрат.
Спрос (Demand): Прогнозирование объема и скорости генерации токенов на основе количества пользователей и сценариев использования.
Монетизация (Monetization): Процесс превращения токенов в бизнес-выгоду.

По мнению Копакар, все эти элементы взаимосвязаны, и игнорирование любого из них может привести к неэффективности ИИ-стратегии компании .

🧠 Не все токены одинаковы: что определяет их стоимость 2:21

Копакар подчеркивает, что токены имеют разную ценность в зависимости от контекста. Она выделяет два основных фактора, влияющих на «интеллектуальный вес» токена:

Заложенный интеллект: Он зависит от сложности модели, создавшей токен. Более сложные и умные модели генерируют более ценные токены . Также на это влияет длина контекста: как правило, чем больше информации модель может учитывать одновременно, тем точнее и интеллектуальнее результат (хотя эксперт оговаривается, что при чрезмерном увеличении контекста качество иногда может деградировать) .
Интерактивность: Скорость прибытия токена к пользователю (tokens per second). Высокая скорость критична для пользовательского опыта .

Собеседники сошлись во мнении, что ценность токена напрямую привязана к задаче . Например, для узкоспециализированных доменных приложений маленькая, но точно настроенная (fine-tuned) модель может быть более ценной, чем гигантская LLM общего назначения . В то же время для агентских приложений (AI Agents) критически важна высокая интерактивность, тогда как для инструментов корпоративного поиска требования к скорости могут быть ниже .

📊 Как прогнозировать спрос: математика токенов 6:41

Для бизнес-лидеров Копакар предлагает трехуровневую систему оценки необходимого объема токенов. Базовая формула («расчет на салфетке») включает три параметра:

Количество пользователей.
Количество сессий на пользователя в день/месяц.
Среднее количество токенов на одну сессию.

Однако, по словам гостьи, этот расчет является лишь фундаментом, который нужно корректировать с помощью специальных «множителей» :

Модели рассуждения (Reasoning models): Они используют так называемые «скрытые токены мышления», которые не видит пользователь, но которые потребляют ресурсы. Копакар рекомендует устанавливать пороги для таких токенов при планировании .
Агентские рабочие нагрузки (Agentic workflows): Это мощный множитель спроса. ИИ-агенты совершают множество итераций и циклов вызовов, что драматически увеличивает количество потребляемых токенов по сравнению с обычным чатом .
Коэффициент попадания в KV-кэш (KV Cache hit rate): Использование «краткосрочной памяти» модели позволяет избежать повторных вычислений уже знакомых входных данных, что экономит ресурсы .
Вариативность спроса: Необходимо учитывать пиковые часы нагрузки (например, утро в офисных приложениях) и сезонные всплески (праздничные распродажи в ритейле) .

🏗️ Инфраструктура и «Стоимость одного токена» 9:43

При обсуждении предложения (Supply) Копакар вводит критически важное различие между «входными» и «выходными» метриками. Традиционные показатели, такие как стоимость часа работы GPU или количество флопс (операций с плавающей запятой) на доллар, она называет входными метриками. Они полезны, но не отражают реальную отдачу для бизнеса .

Главным показателем ROI в мире ИИ гостья считает стоимость одного токена (Cost per Token) . По её мнению, это единственный показатель, который связывает затраты на инфраструктуру с фактическим продуктом, который потребляет бизнес .

В качестве примера Копакар приводит сравнение архитектур NVIDIA Blackwell и NVIDIA Hopper:

Если смотреть на «входные» метрики (стоимость часа или флопс на доллар), Blackwell кажется в 2 раза лучше или дороже .
Однако с точки зрения «выходных» данных, система Blackwell NVL72 обеспечивает в 50 раз больше токенов на ватт .
В конечном итоге это приводит к снижению стоимости одного токена в 35 раз .

🛠️ Экстремальное совместное проектирование (Extreme Co-design) 14:51

Шрути Копакар объясняет успехи NVIDIA подходом, который она называет «экстремальным совместным проектированием». В отличие от простой интеграции готовых узлов, этот метод подразумевает одновременную разработку всех компонентов системы с нуля для достижения минимальной стоимости токена .

Этот процесс охватывает:

Аппаратное обеспечение: Вычисления, память, хранилище и сеть. Платформа Vera Rubin, по словам эксперта, включает семь различных типов чипов .
Программный стек: От ядер CUDA до библиотек TensorRT-LLM и специфических техник, таких как спекулятивное декодирование или квантование NVFP4 .
Экосистему: Взаимодействие с облачными провайдерами и разработчиками open-source фреймворков (таких как vLLM или SGlang).

Копакар подчеркивает роль ПО: за последние 6 месяцев производительность популярных инференс-движков (vLLM, SGlang) выросла в 8 раз только за счет программных оптимизаций на той же аппаратной базе .

💼 Монетизация: четыре модели бизнеса на токенах 23:24

Когда дело доходит до извлечения прибыли, эксперт рекомендует учитывать как себестоимость (cost-based pricing), так и готовность рынка платить за определенный уровень интеллекта (value-based pricing) .

Она выделяет четыре основные бизнес-модели использования ИИ :

Прямая продажа токенов: Компании-провайдеры инфраструктуры, такие как Fireworks.ai, Together AI или DeepInfra.
AI-native продукты: Компании, строящие бизнес вокруг ИИ с первого дня (например, поисковик Perplexity или ИИ-редактор кода Cursor).
Улучшение существующих продуктов: Внедрение ИИ-функций в признанные сервисы (Adobe с семейством моделей Firefly в Photoshop, Shopify, Airbnb).
Внутренняя эффективность: Оптимизация внутренних процессов и повышение продуктивности сотрудников. С этим направлением сейчас работают практически все крупные организации .

📈 Парадокс Джевонса в мире ИИ 26:42

На вопрос ведущего о том, приведет ли снижение стоимости токена к уменьшению потребности в GPU, Копакар отвечает отрицательно, ссылаясь на парадокс Джевонса . Это экономический феномен, при котором повышение эффективности использования ресурса ведет не к падению, а к росту его потребления.

По её наблюдениям, как только токены становятся дешевле и доступнее, исследователи и инженеры находят им новые применения:

Сначала это была простая генерация текстов и саммаризация.
Затем появились модели рассуждения (reasoning), требующие больше вычислений на этапе вывода (test-time scaling) .
Сейчас наступает эра автономных агентов, которые потребляют еще больше токенов для выполнения сложных многоэтапных задач .

«Люди не бегут от интеллекта, они хотят использовать его всё больше», — резюмирует Шрути Копакар . Главный совет для бизнес-лидеров от эксперта NVIDIA: начинать нужно не с покупки серверов, а с анализа потребностей клиента и конкретного сценария использования, выстраивая от них всю цепочку — от выбора модели до подбора инфраструктуры .