NVIDIA: «Микросервисы NIM создают эффективную фабрику ИИ»

NVIDIA Developer 2,6 млн 2 мин 3 мин 30.09.2024
Главное

В условиях стремительного развития генеративного искусственного интеллекта экономическая эффективность вычислительной инфраструктуры все чаще измеряется стоимостью производства токенов. В демонстрационном материале от NVIDIA Developer рассматриваются возможности специализированных микросервисов NVIDIA NIM, призванных оптимизировать развертывание больших языковых моделей (LLM). На примере масштабируемого текстового бенчмарка компания показывает кратное преимущество своего решения по пропускной способности и совокупной стоимости владения (TCO) по сравнению со стандартным программным обеспечением с открытым исходным кодом.

🪙 Новая экономика токенов и задачи оптимизации 0:01

Ускоренная ИТ-инфраструктура становится главным производственным движком новой цифровой экономики. Базовой единицей учета в этой системе выступает токен — минимальная единица обработки и генерации информации в больших языковых моделях (LLM) и других фундаментальных моделях искусственного интеллекта. Поскольку будущие программные продукты и цифровые интерфейсы будут полностью генерируемыми, способность создавать больше токенов при меньших затратах становится ключевым фактором успешного ведения бизнеса и лидерства на рынке.

Для решения этой задачи разработаны микросервисы NVIDIA NIM. Согласно заявлениям компании NVIDIA, они представляют собой предварительно скомпилированные и оптимизированные контейнеры, предназначенные для обеспечения минимальной задержки (low latency) и высокой пропускной способности (high throughput) при запуске ИИ-инференса. Архитектура NIM позволяет гибко масштабировать вычисления на любой ускоренной инфраструктуре NVIDIA, снижая требования к объему аппаратного обеспечения и уменьшая углеродный след корпоративных ИТ-систем.

🧩 Методология тестирования: кроссворды как модель бизнес-задач 0:43

Для наглядной демонстрации эффективности ИИ-фабрики инженеры сравнили работу одного и того же LLM-приложения на идентичном оборудовании, но с использованием разных программных стеков: микросервисов NVIDIA NIM и популярного программного обеспечения с открытым исходным кодом (open-source). В качестве бенчмарка было выбрано интерактивное приложение для одновременного разгадывания кроссвордов с помощью ИИ.

Вычисления в тестовой модели происходят по следующим параметрам:

Хотя разгадывание кроссвордов может показаться абстрактным тестом, авторы подчеркивают, что данное приложение задействует те же базовые механизмы понимания и генерации естественного языка, которые выполняются в реальных бизнес-сценариях. К таким повседневным задачам относятся:

📊 Результаты бенчмарков: кратное увеличение производительности 1:23

В ходе испытаний нагрузка последовательно масштабировалась для оценки стабильности архитектуры под высоким входящим трафиком. На первом этапе исследовалась одновременная обработка почти 50 кроссвордов, что потребовало генерации более 700 000 токенов для завершения головоломок. В этом сценарии стек NVIDIA NIM продемонстрировал выраженное преимущество в производительности, генерируя в 2,4 раза больше токенов в секунду по сравнению с open-source решением.

На втором этапе нагрузка была увеличена до 200 одновременных сессий разгадывания, суммарно генерирующих около 3 миллионов токенов. При пиковой нагрузке эффективность оптимизации NIM проявилась еще сильнее: микросервисы обеспечили трехкратное (3x) преимущество по пропускной способности по сравнению с развертыванием моделей на базе открытого ПО.

Как утверждают специалисты NVIDIA, этот прирост производительности напрямую конвертируется в экономическую выгоду для предприятий. На той же самой аппаратной инфраструктуре компания получает возможность выполнять в три раза больше полезной работы за единицу времени:

В конечном итоге оптимизированный программный стек позволяет существенно снизить совокупную стоимость владения (TCO) искусственным интеллектом, превращая вычислительные кластеры в высокоэффективную фабрику ИИ. Ознакомиться с инструментами и начать работу с микросервисами разработчики могут на специализированном портале AI.NVIDIA.COM.

💬 Цитаты

«Ускоренная ИТ-инфраструктура становится производственным движком новой цифровой экономики, основанной на токенах.»

Автор видео 0:01

«Способность создавать больше токенов при меньших затратах означает более эффективное ведение бизнеса.»

Автор видео 0:15

«NVIDIA NIM создает эффективную фабрику ИИ, которая генерирует больше токенов для большего числа пользователей быстрее и с меньшими затратами.»

Автор видео 2:18
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Токен
Минимальная неделимая единица обработки текстовой информации (слово или часть слова) в больших языковых моделях.
Инференс
Процесс работы уже обученной модели искусственного интеллекта по выполнению конкретной задачи или генерации ответа.
TCO (Совокупная стоимость владения)
Общая сумма прямых и косвенных затрат на приобретение, внедрение и долгосрочную эксплуатацию технологического решения.
Пропускная способность (Throughput)
Количество данных или токенов, обрабатываемых ИИ-системой за определенную единицу времени.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект NVIDIA NIM Инференс LLM Пропускная способность токенов Оптимизация TCO