# Как ускорить ИИ-разработку: уроки full-stack оптимизации от NVIDIA и Nebius

Источник: https://www.youtube.com/watch?v=-S7QSecVl08
Канал: DeepLearning.AI
Опубликовано: 27.03.2025

---

Будущее искусственного интеллекта определяется не только мощностью процессоров, но и тем, насколько эффективно софт и «железо» работают в связке. На конференции AI Dev 2025 Брайан Катанзаро (NVIDIA) и Александр Патрушев (Nebius) обсудили, как преодолеть барьеры производительности и сделать ИИ-разработку доступной для всех — от независимых исследователей до гигантов индустрии.

## 🛠️ Концепция ускоренных вычислений: почему чипа недостаточно
[[JUMP:0:00]]

Брайан Катанзаро, вице-президент NVIDIA по прикладным исследованиям в области глубокого обучения, подчеркивает: создание ИИ сегодня — это не просто вопрос покупки мощного GPU. NVIDIA продвигает философию «ускоренных вычислений» (accelerated computing), которая подразумевает полную оптимизацию стека технологий [01:05].

Основные компоненты этого подхода включают:

*   Проектирование чипов и систем;
*   Разработку сетевых решений и дизайна дата-центров;
*   Создание компиляторов, библиотек и фреймворков;
*   Оптимизацию алгоритмов и конечных приложений [01:32].

По мнению Катанзаро, только при комплексном взгляде на стек можно добиться трансформационных скачков в скорости. В качестве примера он приводит технологию DLSS 4, представленную вместе с архитектурой Blackwell. Если бы NVIDIA полагалась только на закон Мура (увеличение количества транзисторов), десятикратное ускорение графики было бы невозможно, так как темпы развития полупроводников замедляются [03:42]. Вместо этого компания внедрила три нейросети, которые работают в каждом кадре, устраняя пространственную и временную избыточность, что позволяет поднять частоту кадров с 27 до 240 FPS [03:16].

## 📈 Эволюция мощностей и парадокс Джевонса
[[JUMP:05:13]]

История современного ИИ делится Катанзаро на две эры: эру сверточных нейросетей (CNN), начавшуюся с AlexNet, и текущую эру трансформеров, стартовавшую около 2018 года [05:39]. Рост вычислительных мощностей за это время стал ошеломляющим. 

Сравнение кластеров NVIDIA за два года:

1.  **Seline (2021):** 5 000 GPU A100, 3 эксафлопса вычислительной мощности, пропускная способность интерконнекта 100 ТБ/с [06:05].
2.  **EOS (2023):** 11 000 GPU H100 (Hopper), 43 эксафлопса, пропускная способность 1100 ТБ/с [06:18].

Катанзаро также ответил на вопрос, не приведет ли рост эффективности к падению спроса на оборудование. Он ссылается на «парадокс Джевонса»: когда ресурс становится дешевле и эффективнее, спрос на него не падает, а растет, так как открываются новые сферы его применения [07:59]. Например, для обучения модели с 1,8 трлн параметров архитектуре Hopper требовалось 8 000 GPU и 15 МВт энергии. Новая архитектура Blackwell справляется с этой задачей, используя 2 000 GPU и всего 4 МВт [08:50]. Такое снижение затрат делает ИИ более доступным для внедрения в бизнес.

## ☁️ Nebius: строительство ИИ-облака будущего
[[JUMP:11:18]]

Александр Патрушев, представляющий компанию Nebius, рассказал о том, как их облачная платформа помогает разработчикам получить доступ к новейшим ускорителям. Nebius позиционирует себя не просто как провайдер, а как инженерная компания, глубоко вовлеченная в создание инфраструктуры [13:44].

Ключевые особенности инфраструктуры Nebius:

*   **Собственные дата-центры:** Штаб-квартира в Амстердаме, площадки в Финляндии, Франции, Исландии и США [14:12]. 
*   **Энергоэффективность:** Дата-центр в Финляндии имеет показатель PUE около 1.1. Избыточное тепло от серверов используется для обогрева соседнего населенного пункта [15:04].
*   **Full-stack подход:** Компания сама проектирует серверы и стойки, а также разрабатывает программный стек для виртуализации ресурсов [15:32].

Александр Патрушев отмечает, что Nebius строит облако на основе собственного опыта обучения моделей. У компании есть своя ИИ-команда, работающая над моделями объемом до 300 миллиардов параметров, что позволяет понимать реальные «боли» разработчиков [15:59].

## 🧭 Как выбрать инфраструктуру: гид для разработчика
[[JUMP:16:11]]

Выбор между арендой голых GPU, использованием Serverless-решений или готовых API — это всегда поиск компромисса между контролем и простотой [18:59]. Патрушев выделил четыре ключевых измерения для принятия решения:

1.  **Экономика:** Нужно учитывать не только стоимость часа работы GPU, но и совокупную стоимость владения (TCO), включая затраты на персонал [19:24].
2.  **Технологии:** Требования к задержкам (latency), производительности и возможности кастомизации пайплайна [19:49].
3.  **Операционка:** Есть ли у вашей команды навыки для обслуживания сложной инфраструктуры и какие гарантии SLA (доступности) дает провайдер [20:15].
4.  **Стратегия:** Риск вендор-лока (привязки к одному поставщику) и соответствие комплаенс-стандартам (например, HIPAA для медицинских приложений) [20:56].

Патрушев предостерегает от начала разработки с выбора конкретного инструмента. По его мнению, сначала нужно определить бизнес-требования (latency, бюджет, регуляторика), и только потом подбирать под них технический стек [23:08]. Также он рекомендует выбирать метрики, ориентированные на пользователя: стабильность работы часто важнее пиковой пропускной способности [24:58].

## 🔍 Инструменты для малых моделей и локальной разработки
[[JUMP:28:06]]

В ходе сессии вопросов и ответов Брайан Катанзаро затронул тему малых языковых моделей и локальных вычислений. NVIDIA продвигает сервис NIM (NVIDIA Inference Microservices) — контейнеризированные микросервисы, которые уже оптимизированы под все поколения тензорных ядер [28:44]. 

Особое внимание уделили архитектурам с объединенной памятью (Unified Memory), таким как проект Digits. Катанзаро утверждает, что возможность экспериментировать локально на компактных устройствах критически важна для работы с секретными или приватными данными, которые разработчики не хотят отправлять в облако [30:44]. При этом он подчеркивает, что оптимизация для локальных систем и для огромных серверных ферм — это разные технические задачи, которые NVIDIA стремится решать параллельно [30:18].

---