NVIDIA: «Микросервисы NIM создают эффективную фабрику ИИ»

В условиях стремительного развития генеративного искусственного интеллекта экономическая эффективность вычислительной инфраструктуры все чаще измеряется стоимостью производства токенов. В демонстрационном материале от NVIDIA Developer рассматриваются возможности специализированных микросервисов NVIDIA NIM, призванных оптимизировать развертывание больших языковых моделей (LLM). На примере масштабируемого текстового бенчмарка компания показывает кратное преимущество своего решения по пропускной способности и совокупной стоимости владения (TCO) по сравнению со стандартным программным обеспечением с открытым исходным кодом.

🪙 Новая экономика токенов и задачи оптимизации 0:01

Ускоренная ИТ-инфраструктура становится главным производственным движком новой цифровой экономики. Базовой единицей учета в этой системе выступает токен — минимальная единица обработки и генерации информации в больших языковых моделях (LLM) и других фундаментальных моделях искусственного интеллекта. Поскольку будущие программные продукты и цифровые интерфейсы будут полностью генерируемыми, способность создавать больше токенов при меньших затратах становится ключевым фактором успешного ведения бизнеса и лидерства на рынке.

Для решения этой задачи разработаны микросервисы NVIDIA NIM. Согласно заявлениям компании NVIDIA, они представляют собой предварительно скомпилированные и оптимизированные контейнеры, предназначенные для обеспечения минимальной задержки (low latency) и высокой пропускной способности (high throughput) при запуске ИИ-инференса. Архитектура NIM позволяет гибко масштабировать вычисления на любой ускоренной инфраструктуре NVIDIA, снижая требования к объему аппаратного обеспечения и уменьшая углеродный след корпоративных ИТ-систем.

🧩 Методология тестирования: кроссворды как модель бизнес-задач 0:43

Для наглядной демонстрации эффективности ИИ-фабрики инженеры сравнили работу одного и того же LLM-приложения на идентичном оборудовании, но с использованием разных программных стеков: микросервисов NVIDIA NIM и популярного программного обеспечения с открытым исходным кодом (open-source). В качестве бенчмарка было выбрано интерактивное приложение для одновременного разгадывания кроссвордов с помощью ИИ.

Вычисления в тестовой модели происходят по следующим параметрам:

Каждое предсказание слова в сетке активирует один вызов языковой модели.
Один ИИ-вызов генерирует до 100 токенов.
Для полного решения одного кроссворда требуется в среднем 150 вызовов модели.
Суммарно на один кроссворд расходуется около 15 000 токенов.

Хотя разгадывание кроссвордов может показаться абстрактным тестом, авторы подчеркивают, что данное приложение задействует те же базовые механизмы понимания и генерации естественного языка, которые выполняются в реальных бизнес-сценариях. К таким повседневным задачам относятся:

Составление черновиков, документов и саммаризация (краткое изложение) текстового контента.
Поиск точных ответов на вопросы пользователей с использованием систем извлечения знаний (технологии RAG).
Автоматическая генерация и аудит программного кода.

📊 Результаты бенчмарков: кратное увеличение производительности 1:23

В ходе испытаний нагрузка последовательно масштабировалась для оценки стабильности архитектуры под высоким входящим трафиком. На первом этапе исследовалась одновременная обработка почти 50 кроссвордов, что потребовало генерации более 700 000 токенов для завершения головоломок. В этом сценарии стек NVIDIA NIM продемонстрировал выраженное преимущество в производительности, генерируя в 2,4 раза больше токенов в секунду по сравнению с open-source решением.

На втором этапе нагрузка была увеличена до 200 одновременных сессий разгадывания, суммарно генерирующих около 3 миллионов токенов. При пиковой нагрузке эффективность оптимизации NIM проявилась еще сильнее: микросервисы обеспечили трехкратное (3x) преимущество по пропускной способности по сравнению с развертыванием моделей на базе открытого ПО.

Как утверждают специалисты NVIDIA, этот прирост производительности напрямую конвертируется в экономическую выгоду для предприятий. На той же самой аппаратной инфраструктуре компания получает возможность выполнять в три раза больше полезной работы за единицу времени:

Генерировать и обрабатывать в три раза больше кратких обзоров текстового контента.
Выдавать ответы на втрое большее количество поисковых запросов пользователей.
Ускорить автоматическую генерацию кода в 3 раза без закупки дополнительных серверов.

В конечном итоге оптимизированный программный стек позволяет существенно снизить совокупную стоимость владения (TCO) искусственным интеллектом, превращая вычислительные кластеры в высокоэффективную фабрику ИИ. Ознакомиться с инструментами и начать работу с микросервисами разработчики могут на специализированном портале AI.NVIDIA.COM.