# Токеномика ИИ: как превратить вычислительные мощности в реальную прибыль

Источник: https://www.youtube.com/watch?v=zNuOOMM20Tk
Канал: NVIDIA
Опубликовано: 20.05.2026

---

В новом выпуске подкаста NVIDIA AI ведущий Ноа Кравиц обсуждает со Шрути Копакар, экспертом команды ускоренных вычислений NVIDIA, концепцию «токеномики». В условиях, когда дата-центры превращаются в «фабрики ИИ», понимание экономики производства и потребления токенов становится критически важным для бизнес-лидеров, стремящихся извлечь реальную ценность из внедрения искусственного интеллекта.

## 💎 Четыре столпа токеномики: от теории к практике
[[JUMP:01:04]]

По определению Шрути Копакар, токеномика — это дисциплина, изучающая то, как токены оцениваются, поставляются, потребляются и монетизируются [01:16]. Для успешного развертывания ИИ-решений организации должны понимать четыре ключевых элемента этой системы:

*   **Ценность (Utility/Value):** Понимание того, какую пользу приносит конкретный токен.
*   **Предложение (Supply):** Принятие решений об инфраструктуре, которые максимизируют выход токенов при минимизации затрат.
*   **Спрос (Demand):** Прогнозирование объема и скорости генерации токенов на основе количества пользователей и сценариев использования.
*   **Монетизация (Monetization):** Процесс превращения токенов в бизнес-выгоду.

По мнению Копакар, все эти элементы взаимосвязаны, и игнорирование любого из них может привести к неэффективности ИИ-стратегии компании [01:56].

## 🧠 Не все токены одинаковы: что определяет их стоимость
[[JUMP:02:21]]

Копакар подчеркивает, что токены имеют разную ценность в зависимости от контекста. Она выделяет два основных фактора, влияющих на «интеллектуальный вес» токена:

1.  **Заложенный интеллект:** Он зависит от сложности модели, создавшей токен. Более сложные и умные модели генерируют более ценные токены [02:47]. Также на это влияет длина контекста: как правило, чем больше информации модель может учитывать одновременно, тем точнее и интеллектуальнее результат (хотя эксперт оговаривается, что при чрезмерном увеличении контекста качество иногда может деградировать) [03:14].
2.  **Интерактивность:** Скорость прибытия токена к пользователю (tokens per second). Высокая скорость критична для пользовательского опыта [03:43].

Собеседники сошлись во мнении, что ценность токена напрямую привязана к задаче [04:41]. Например, для узкоспециализированных доменных приложений маленькая, но точно настроенная (fine-tuned) модель может быть более ценной, чем гигантская LLM общего назначения [05:20]. В то же время для агентских приложений (AI Agents) критически важна высокая интерактивность, тогда как для инструментов корпоративного поиска требования к скорости могут быть ниже [05:45].

## 📊 Как прогнозировать спрос: математика токенов
[[JUMP:06:41]]

Для бизнес-лидеров Копакар предлагает трехуровневую систему оценки необходимого объема токенов. Базовая формула («расчет на салфетке») включает три параметра:

*   Количество пользователей.
*   Количество сессий на пользователя в день/месяц.
*   Среднее количество токенов на одну сессию.

Однако, по словам гостьи, этот расчет является лишь фундаментом, который нужно корректировать с помощью специальных «множителей» [07:20]:

*   **Модели рассуждения (Reasoning models):** Они используют так называемые «скрытые токены мышления», которые не видит пользователь, но которые потребляют ресурсы. Копакар рекомендует устанавливать пороги для таких токенов при планировании [07:32].
*   **Агентские рабочие нагрузки (Agentic workflows):** Это мощный множитель спроса. ИИ-агенты совершают множество итераций и циклов вызовов, что драматически увеличивает количество потребляемых токенов по сравнению с обычным чатом [07:58].
*   **Коэффициент попадания в KV-кэш (KV Cache hit rate):** Использование «краткосрочной памяти» модели позволяет избежать повторных вычислений уже знакомых входных данных, что экономит ресурсы [08:23].
*   **Вариативность спроса:** Необходимо учитывать пиковые часы нагрузки (например, утро в офисных приложениях) и сезонные всплески (праздничные распродажи в ритейле) [09:03].

## 🏗️ Инфраструктура и «Стоимость одного токена»
[[JUMP:09:43]]

При обсуждении предложения (Supply) Копакар вводит критически важное различие между «входными» и «выходными» метриками. Традиционные показатели, такие как стоимость часа работы GPU или количество флопс (операций с плавающей запятой) на доллар, она называет входными метриками. Они полезны, но не отражают реальную отдачу для бизнеса [10:23].

Главным показателем ROI в мире ИИ гостья считает **стоимость одного токена (Cost per Token)** [11:03]. По её мнению, это единственный показатель, который связывает затраты на инфраструктуру с фактическим продуктом, который потребляет бизнес [12:39].

В качестве примера Копакар приводит сравнение архитектур NVIDIA Blackwell и NVIDIA Hopper:

*   Если смотреть на «входные» метрики (стоимость часа или флопс на доллар), Blackwell кажется в 2 раза лучше или дороже [13:18].
*   Однако с точки зрения «выходных» данных, система Blackwell NVL72 обеспечивает в **50 раз больше токенов на ватт** [14:13].
*   В конечном итоге это приводит к **снижению стоимости одного токена в 35 раз** [14:13].

## 🛠️ Экстремальное совместное проектирование (Extreme Co-design)
[[JUMP:14:51]]

Шрути Копакар объясняет успехи NVIDIA подходом, который она называет «экстремальным совместным проектированием». В отличие от простой интеграции готовых узлов, этот метод подразумевает одновременную разработку всех компонентов системы с нуля для достижения минимальной стоимости токена [15:30].

Этот процесс охватывает:

*   **Аппаратное обеспечение:** Вычисления, память, хранилище и сеть. Платформа Vera Rubin, по словам эксперта, включает семь различных типов чипов [16:10].
*   **Программный стек:** От ядер CUDA до библиотек TensorRT-LLM и специфических техник, таких как спекулятивное декодирование или квантование NVFP4 [21:53].
*   **Экосистему:** Взаимодействие с облачными провайдерами и разработчиками open-source фреймворков (таких как vLLM или SGlang).

Копакар подчеркивает роль ПО: за последние 6 месяцев производительность популярных инференс-движков (vLLM, SGlang) выросла в 8 раз только за счет программных оптимизаций на той же аппаратной базе [22:59].

## 💼 Монетизация: четыре модели бизнеса на токенах
[[JUMP:23:24]]

Когда дело доходит до извлечения прибыли, эксперт рекомендует учитывать как себестоимость (cost-based pricing), так и готовность рынка платить за определенный уровень интеллекта (value-based pricing) [24:17].

Она выделяет четыре основные бизнес-модели использования ИИ [29:18]:

1.  **Прямая продажа токенов:** Компании-провайдеры инфраструктуры, такие как Fireworks.ai, Together AI или DeepInfra.
2.  **AI-native продукты:** Компании, строящие бизнес вокруг ИИ с первого дня (например, поисковик Perplexity или ИИ-редактор кода Cursor).
3.  **Улучшение существующих продуктов:** Внедрение ИИ-функций в признанные сервисы (Adobe с семейством моделей Firefly в Photoshop, Shopify, Airbnb).
4.  **Внутренняя эффективность:** Оптимизация внутренних процессов и повышение продуктивности сотрудников. С этим направлением сейчас работают практически все крупные организации [30:42].

## 📈 Парадокс Джевонса в мире ИИ
[[JUMP:26:42]]

На вопрос ведущего о том, приведет ли снижение стоимости токена к уменьшению потребности в GPU, Копакар отвечает отрицательно, ссылаясь на **парадокс Джевонса** [26:55]. Это экономический феномен, при котором повышение эффективности использования ресурса ведет не к падению, а к росту его потребления.

По её наблюдениям, как только токены становятся дешевле и доступнее, исследователи и инженеры находят им новые применения:

*   Сначала это была простая генерация текстов и саммаризация.
*   Затем появились модели рассуждения (reasoning), требующие больше вычислений на этапе вывода (test-time scaling) [27:58].
*   Сейчас наступает эра автономных агентов, которые потребляют еще больше токенов для выполнения сложных многоэтапных задач [28:38].

«Люди не бегут от интеллекта, они хотят использовать его всё больше», — резюмирует Шрути Копакар [27:33]. Главный совет для бизнес-лидеров от эксперта NVIDIA: начинать нужно не с покупки серверов, а с анализа потребностей клиента и конкретного сценария использования, выстраивая от них всю цепочку — от выбора модели до подбора инфраструктуры [31:45].