Как ускорить ИИ-разработку: уроки full-stack оптимизации от NVIDIA и Nebius

Будущее искусственного интеллекта определяется не только мощностью процессоров, но и тем, насколько эффективно софт и «железо» работают в связке. На конференции AI Dev 2025 Брайан Катанзаро (NVIDIA) и Александр Патрушев (Nebius) обсудили, как преодолеть барьеры производительности и сделать ИИ-разработку доступной для всех — от независимых исследователей до гигантов индустрии.

🛠️ Концепция ускоренных вычислений: почему чипа недостаточно 0:00

Брайан Катанзаро, вице-президент NVIDIA по прикладным исследованиям в области глубокого обучения, подчеркивает: создание ИИ сегодня — это не просто вопрос покупки мощного GPU. NVIDIA продвигает философию «ускоренных вычислений» (accelerated computing), которая подразумевает полную оптимизацию стека технологий .

Основные компоненты этого подхода включают:

Проектирование чипов и систем;
Разработку сетевых решений и дизайна дата-центров;
Создание компиляторов, библиотек и фреймворков;
Оптимизацию алгоритмов и конечных приложений .

По мнению Катанзаро, только при комплексном взгляде на стек можно добиться трансформационных скачков в скорости. В качестве примера он приводит технологию DLSS 4, представленную вместе с архитектурой Blackwell. Если бы NVIDIA полагалась только на закон Мура (увеличение количества транзисторов), десятикратное ускорение графики было бы невозможно, так как темпы развития полупроводников замедляются . Вместо этого компания внедрила три нейросети, которые работают в каждом кадре, устраняя пространственную и временную избыточность, что позволяет поднять частоту кадров с 27 до 240 FPS .

📈 Эволюция мощностей и парадокс Джевонса 5:13

История современного ИИ делится Катанзаро на две эры: эру сверточных нейросетей (CNN), начавшуюся с AlexNet, и текущую эру трансформеров, стартовавшую около 2018 года . Рост вычислительных мощностей за это время стал ошеломляющим.

Сравнение кластеров NVIDIA за два года:

Seline (2021): 5 000 GPU A100, 3 эксафлопса вычислительной мощности, пропускная способность интерконнекта 100 ТБ/с .
EOS (2023): 11 000 GPU H100 (Hopper), 43 эксафлопса, пропускная способность 1100 ТБ/с .

Катанзаро также ответил на вопрос, не приведет ли рост эффективности к падению спроса на оборудование. Он ссылается на «парадокс Джевонса»: когда ресурс становится дешевле и эффективнее, спрос на него не падает, а растет, так как открываются новые сферы его применения . Например, для обучения модели с 1,8 трлн параметров архитектуре Hopper требовалось 8 000 GPU и 15 МВт энергии. Новая архитектура Blackwell справляется с этой задачей, используя 2 000 GPU и всего 4 МВт . Такое снижение затрат делает ИИ более доступным для внедрения в бизнес.

☁️ Nebius: строительство ИИ-облака будущего 11:18

Александр Патрушев, представляющий компанию Nebius, рассказал о том, как их облачная платформа помогает разработчикам получить доступ к новейшим ускорителям. Nebius позиционирует себя не просто как провайдер, а как инженерная компания, глубоко вовлеченная в создание инфраструктуры .

Ключевые особенности инфраструктуры Nebius:

Собственные дата-центры: Штаб-квартира в Амстердаме, площадки в Финляндии, Франции, Исландии и США .
Энергоэффективность: Дата-центр в Финляндии имеет показатель PUE около 1.1. Избыточное тепло от серверов используется для обогрева соседнего населенного пункта .
Full-stack подход: Компания сама проектирует серверы и стойки, а также разрабатывает программный стек для виртуализации ресурсов .

Александр Патрушев отмечает, что Nebius строит облако на основе собственного опыта обучения моделей. У компании есть своя ИИ-команда, работающая над моделями объемом до 300 миллиардов параметров, что позволяет понимать реальные «боли» разработчиков .

🧭 Как выбрать инфраструктуру: гид для разработчика 16:11

Выбор между арендой голых GPU, использованием Serverless-решений или готовых API — это всегда поиск компромисса между контролем и простотой . Патрушев выделил четыре ключевых измерения для принятия решения:

Экономика: Нужно учитывать не только стоимость часа работы GPU, но и совокупную стоимость владения (TCO), включая затраты на персонал .
Технологии: Требования к задержкам (latency), производительности и возможности кастомизации пайплайна .
Операционка: Есть ли у вашей команды навыки для обслуживания сложной инфраструктуры и какие гарантии SLA (доступности) дает провайдер .
Стратегия: Риск вендор-лока (привязки к одному поставщику) и соответствие комплаенс-стандартам (например, HIPAA для медицинских приложений) .

Патрушев предостерегает от начала разработки с выбора конкретного инструмента. По его мнению, сначала нужно определить бизнес-требования (latency, бюджет, регуляторика), и только потом подбирать под них технический стек . Также он рекомендует выбирать метрики, ориентированные на пользователя: стабильность работы часто важнее пиковой пропускной способности .

🔍 Инструменты для малых моделей и локальной разработки 28:06

В ходе сессии вопросов и ответов Брайан Катанзаро затронул тему малых языковых моделей и локальных вычислений. NVIDIA продвигает сервис NIM (NVIDIA Inference Microservices) — контейнеризированные микросервисы, которые уже оптимизированы под все поколения тензорных ядер .

Особое внимание уделили архитектурам с объединенной памятью (Unified Memory), таким как проект Digits. Катанзаро утверждает, что возможность экспериментировать локально на компактных устройствах критически важна для работы с секретными или приватными данными, которые разработчики не хотят отправлять в облако . При этом он подчеркивает, что оптимизация для локальных систем и для огромных серверных ферм — это разные технические задачи, которые NVIDIA стремится решать параллельно .