В новом выпуске подкаста NVIDIA AI ведущий Ноа Кравиц обсуждает со Шрути Копакар, экспертом команды ускоренных вычислений NVIDIA, концепцию «токеномики». В условиях, когда дата-центры превращаются в «фабрики ИИ», понимание экономики производства и потребления токенов становится критически важным для бизнес-лидеров, стремящихся извлечь реальную ценность из внедрения искусственного интеллекта.
💎 Четыре столпа токеномики: от теории к практике 1:04
По определению Шрути Копакар, токеномика — это дисциплина, изучающая то, как токены оцениваются, поставляются, потребляются и монетизируются . Для успешного развертывания ИИ-решений организации должны понимать четыре ключевых элемента этой системы:
- Ценность (Utility/Value): Понимание того, какую пользу приносит конкретный токен.
- Предложение (Supply): Принятие решений об инфраструктуре, которые максимизируют выход токенов при минимизации затрат.
- Спрос (Demand): Прогнозирование объема и скорости генерации токенов на основе количества пользователей и сценариев использования.
- Монетизация (Monetization): Процесс превращения токенов в бизнес-выгоду.
По мнению Копакар, все эти элементы взаимосвязаны, и игнорирование любого из них может привести к неэффективности ИИ-стратегии компании .
🧠 Не все токены одинаковы: что определяет их стоимость 2:21
Копакар подчеркивает, что токены имеют разную ценность в зависимости от контекста. Она выделяет два основных фактора, влияющих на «интеллектуальный вес» токена:
- Заложенный интеллект: Он зависит от сложности модели, создавшей токен. Более сложные и умные модели генерируют более ценные токены . Также на это влияет длина контекста: как правило, чем больше информации модель может учитывать одновременно, тем точнее и интеллектуальнее результат (хотя эксперт оговаривается, что при чрезмерном увеличении контекста качество иногда может деградировать) .
- Интерактивность: Скорость прибытия токена к пользователю (tokens per second). Высокая скорость критична для пользовательского опыта .
Собеседники сошлись во мнении, что ценность токена напрямую привязана к задаче . Например, для узкоспециализированных доменных приложений маленькая, но точно настроенная (fine-tuned) модель может быть более ценной, чем гигантская LLM общего назначения . В то же время для агентских приложений (AI Agents) критически важна высокая интерактивность, тогда как для инструментов корпоративного поиска требования к скорости могут быть ниже .
📊 Как прогнозировать спрос: математика токенов 6:41
Для бизнес-лидеров Копакар предлагает трехуровневую систему оценки необходимого объема токенов. Базовая формула («расчет на салфетке») включает три параметра:
- Количество пользователей.
- Количество сессий на пользователя в день/месяц.
- Среднее количество токенов на одну сессию.
Однако, по словам гостьи, этот расчет является лишь фундаментом, который нужно корректировать с помощью специальных «множителей» :
- Модели рассуждения (Reasoning models): Они используют так называемые «скрытые токены мышления», которые не видит пользователь, но которые потребляют ресурсы. Копакар рекомендует устанавливать пороги для таких токенов при планировании .
- Агентские рабочие нагрузки (Agentic workflows): Это мощный множитель спроса. ИИ-агенты совершают множество итераций и циклов вызовов, что драматически увеличивает количество потребляемых токенов по сравнению с обычным чатом .
- Коэффициент попадания в KV-кэш (KV Cache hit rate): Использование «краткосрочной памяти» модели позволяет избежать повторных вычислений уже знакомых входных данных, что экономит ресурсы .
- Вариативность спроса: Необходимо учитывать пиковые часы нагрузки (например, утро в офисных приложениях) и сезонные всплески (праздничные распродажи в ритейле) .
🏗️ Инфраструктура и «Стоимость одного токена» 9:43
При обсуждении предложения (Supply) Копакар вводит критически важное различие между «входными» и «выходными» метриками. Традиционные показатели, такие как стоимость часа работы GPU или количество флопс (операций с плавающей запятой) на доллар, она называет входными метриками. Они полезны, но не отражают реальную отдачу для бизнеса .
Главным показателем ROI в мире ИИ гостья считает стоимость одного токена (Cost per Token) . По её мнению, это единственный показатель, который связывает затраты на инфраструктуру с фактическим продуктом, который потребляет бизнес .
В качестве примера Копакар приводит сравнение архитектур NVIDIA Blackwell и NVIDIA Hopper:
- Если смотреть на «входные» метрики (стоимость часа или флопс на доллар), Blackwell кажется в 2 раза лучше или дороже .
- Однако с точки зрения «выходных» данных, система Blackwell NVL72 обеспечивает в 50 раз больше токенов на ватт .
- В конечном итоге это приводит к снижению стоимости одного токена в 35 раз .
🛠️ Экстремальное совместное проектирование (Extreme Co-design) 14:51
Шрути Копакар объясняет успехи NVIDIA подходом, который она называет «экстремальным совместным проектированием». В отличие от простой интеграции готовых узлов, этот метод подразумевает одновременную разработку всех компонентов системы с нуля для достижения минимальной стоимости токена .
Этот процесс охватывает:
- Аппаратное обеспечение: Вычисления, память, хранилище и сеть. Платформа Vera Rubin, по словам эксперта, включает семь различных типов чипов .
- Программный стек: От ядер CUDA до библиотек TensorRT-LLM и специфических техник, таких как спекулятивное декодирование или квантование NVFP4 .
- Экосистему: Взаимодействие с облачными провайдерами и разработчиками open-source фреймворков (таких как vLLM или SGlang).
Копакар подчеркивает роль ПО: за последние 6 месяцев производительность популярных инференс-движков (vLLM, SGlang) выросла в 8 раз только за счет программных оптимизаций на той же аппаратной базе .
💼 Монетизация: четыре модели бизнеса на токенах 23:24
Когда дело доходит до извлечения прибыли, эксперт рекомендует учитывать как себестоимость (cost-based pricing), так и готовность рынка платить за определенный уровень интеллекта (value-based pricing) .
Она выделяет четыре основные бизнес-модели использования ИИ :
- Прямая продажа токенов: Компании-провайдеры инфраструктуры, такие как Fireworks.ai, Together AI или DeepInfra.
- AI-native продукты: Компании, строящие бизнес вокруг ИИ с первого дня (например, поисковик Perplexity или ИИ-редактор кода Cursor).
- Улучшение существующих продуктов: Внедрение ИИ-функций в признанные сервисы (Adobe с семейством моделей Firefly в Photoshop, Shopify, Airbnb).
- Внутренняя эффективность: Оптимизация внутренних процессов и повышение продуктивности сотрудников. С этим направлением сейчас работают практически все крупные организации .
📈 Парадокс Джевонса в мире ИИ 26:42
На вопрос ведущего о том, приведет ли снижение стоимости токена к уменьшению потребности в GPU, Копакар отвечает отрицательно, ссылаясь на парадокс Джевонса . Это экономический феномен, при котором повышение эффективности использования ресурса ведет не к падению, а к росту его потребления.
По её наблюдениям, как только токены становятся дешевле и доступнее, исследователи и инженеры находят им новые применения:
- Сначала это была простая генерация текстов и саммаризация.
- Затем появились модели рассуждения (reasoning), требующие больше вычислений на этапе вывода (test-time scaling) .
- Сейчас наступает эра автономных агентов, которые потребляют еще больше токенов для выполнения сложных многоэтапных задач .
«Люди не бегут от интеллекта, они хотят использовать его всё больше», — резюмирует Шрути Копакар . Главный совет для бизнес-лидеров от эксперта NVIDIA: начинать нужно не с покупки серверов, а с анализа потребностей клиента и конкретного сценария использования, выстраивая от них всю цепочку — от выбора модели до подбора инфраструктуры .