Токеномика ИИ: как превратить вычислительные мощности в реальную прибыль

NVIDIA 5,3 тыс. 33 мин 5 мин 20.05.2026
Главное

В новом выпуске подкаста NVIDIA AI ведущий Ноа Кравиц обсуждает со Шрути Копакар, экспертом команды ускоренных вычислений NVIDIA, концепцию «токеномики». В условиях, когда дата-центры превращаются в «фабрики ИИ», понимание экономики производства и потребления токенов становится критически важным для бизнес-лидеров, стремящихся извлечь реальную ценность из внедрения искусственного интеллекта.

💎 Четыре столпа токеномики: от теории к практике 1:04

По определению Шрути Копакар, токеномика — это дисциплина, изучающая то, как токены оцениваются, поставляются, потребляются и монетизируются . Для успешного развертывания ИИ-решений организации должны понимать четыре ключевых элемента этой системы:

По мнению Копакар, все эти элементы взаимосвязаны, и игнорирование любого из них может привести к неэффективности ИИ-стратегии компании .

🧠 Не все токены одинаковы: что определяет их стоимость 2:21

Копакар подчеркивает, что токены имеют разную ценность в зависимости от контекста. Она выделяет два основных фактора, влияющих на «интеллектуальный вес» токена:

  1. Заложенный интеллект: Он зависит от сложности модели, создавшей токен. Более сложные и умные модели генерируют более ценные токены . Также на это влияет длина контекста: как правило, чем больше информации модель может учитывать одновременно, тем точнее и интеллектуальнее результат (хотя эксперт оговаривается, что при чрезмерном увеличении контекста качество иногда может деградировать) .
  2. Интерактивность: Скорость прибытия токена к пользователю (tokens per second). Высокая скорость критична для пользовательского опыта .

Собеседники сошлись во мнении, что ценность токена напрямую привязана к задаче . Например, для узкоспециализированных доменных приложений маленькая, но точно настроенная (fine-tuned) модель может быть более ценной, чем гигантская LLM общего назначения . В то же время для агентских приложений (AI Agents) критически важна высокая интерактивность, тогда как для инструментов корпоративного поиска требования к скорости могут быть ниже .

📊 Как прогнозировать спрос: математика токенов 6:41

Для бизнес-лидеров Копакар предлагает трехуровневую систему оценки необходимого объема токенов. Базовая формула («расчет на салфетке») включает три параметра:

Однако, по словам гостьи, этот расчет является лишь фундаментом, который нужно корректировать с помощью специальных «множителей» :

🏗️ Инфраструктура и «Стоимость одного токена» 9:43

При обсуждении предложения (Supply) Копакар вводит критически важное различие между «входными» и «выходными» метриками. Традиционные показатели, такие как стоимость часа работы GPU или количество флопс (операций с плавающей запятой) на доллар, она называет входными метриками. Они полезны, но не отражают реальную отдачу для бизнеса .

Главным показателем ROI в мире ИИ гостья считает стоимость одного токена (Cost per Token) . По её мнению, это единственный показатель, который связывает затраты на инфраструктуру с фактическим продуктом, который потребляет бизнес .

В качестве примера Копакар приводит сравнение архитектур NVIDIA Blackwell и NVIDIA Hopper:

🛠️ Экстремальное совместное проектирование (Extreme Co-design) 14:51

Шрути Копакар объясняет успехи NVIDIA подходом, который она называет «экстремальным совместным проектированием». В отличие от простой интеграции готовых узлов, этот метод подразумевает одновременную разработку всех компонентов системы с нуля для достижения минимальной стоимости токена .

Этот процесс охватывает:

Копакар подчеркивает роль ПО: за последние 6 месяцев производительность популярных инференс-движков (vLLM, SGlang) выросла в 8 раз только за счет программных оптимизаций на той же аппаратной базе .

💼 Монетизация: четыре модели бизнеса на токенах 23:24

Когда дело доходит до извлечения прибыли, эксперт рекомендует учитывать как себестоимость (cost-based pricing), так и готовность рынка платить за определенный уровень интеллекта (value-based pricing) .

Она выделяет четыре основные бизнес-модели использования ИИ :

  1. Прямая продажа токенов: Компании-провайдеры инфраструктуры, такие как Fireworks.ai, Together AI или DeepInfra.
  2. AI-native продукты: Компании, строящие бизнес вокруг ИИ с первого дня (например, поисковик Perplexity или ИИ-редактор кода Cursor).
  3. Улучшение существующих продуктов: Внедрение ИИ-функций в признанные сервисы (Adobe с семейством моделей Firefly в Photoshop, Shopify, Airbnb).
  4. Внутренняя эффективность: Оптимизация внутренних процессов и повышение продуктивности сотрудников. С этим направлением сейчас работают практически все крупные организации .

📈 Парадокс Джевонса в мире ИИ 26:42

На вопрос ведущего о том, приведет ли снижение стоимости токена к уменьшению потребности в GPU, Копакар отвечает отрицательно, ссылаясь на парадокс Джевонса . Это экономический феномен, при котором повышение эффективности использования ресурса ведет не к падению, а к росту его потребления.

По её наблюдениям, как только токены становятся дешевле и доступнее, исследователи и инженеры находят им новые применения:

«Люди не бегут от интеллекта, они хотят использовать его всё больше», — резюмирует Шрути Копакар . Главный совет для бизнес-лидеров от эксперта NVIDIA: начинать нужно не с покупки серверов, а с анализа потребностей клиента и конкретного сценария использования, выстраивая от них всю цепочку — от выбора модели до подбора инфраструктуры .

💬 Цитаты

«Если ваш бизнес работает на результатах (токенах), то оценка инфраструктуры по затратам (часам GPU) — это фундаментальное несоответствие.»

Шрути Копакар 12:53

«Blackwell доставляет в 50 раз больше токенов на ватт по сравнению с Hopper.»

Шрути Копакар 14:13

«В агентских системах ИИ ведет диалог с другим ИИ или софтом, и количество вызовов LLM там значительно выше.»

Шрути Копакар 18:19
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Токен (Token)
Базовая единица текста (слово или часть слова), которую обрабатывает и генерирует языковая модель.
Инференс (Inference)
Процесс работы уже обученной нейросети для получения предсказания или генерации ответа.
KV Cache
Технология кэширования промежуточных данных модели, работающая как краткосрочная память для ускорения генерации.
Парадокс Джевонса
Экономический эффект, при котором рост эффективности использования ресурса увеличивает объем его потребления.
📊 Цифры
🗓 Хронология
  1. 2024 Переход индустрии от простой генерации текста к моделям рассуждения (reasoning) и агентским системам.
⚖️ Другая сторона
Стартапы и бизнес Nvidia Blackwell Hopper Токеномика AI Agents