# Почему Nvidia доминирует на рынке ИИ-железа и что не так с законом Мура

Источник: https://www.youtube.com/watch?v=-s_Ui5j0Guw
Канал: a16z (Andreessen Horowitz)
Опубликовано: 16.08.2023

---

В эпоху расцвета генеративного искусственного интеллекта аппаратное обеспечение (hardware) перестало быть просто «железом» на заднем плане, превратившись в ключевой стратегический ресурс. В условиях, когда спрос на вычислительные мощности в десять раз превышает предложение, понимание архитектуры чипов становится критически важным для бизнеса и разработчиков. Специальный советник фонда **a16z** и бывший технический директор Intel Data Center Group **Гвидо Аппенцеллер** (Guido Appenzeller) объясняет, почему именно игровые видеокарты стали фундаментом нейросетевой революции и что на самом деле происходит с законом Мура.

## 🧠 От графики к тензорам: архитектура AI-чипов
[[JUMP:04:03]]

Современные алгоритмы ИИ работают на специализированных чипах, называемых **AI-акселераторами** [04:03]. По своей структуре они крайне близки к графическим процессорам (**GPU**). Гвидо Аппенцеллер иронично замечает, что вряд ли кто-то мог предсказать, как домашний игровой ПК или ферма для майнинга биткоинов станут идеальным инструментом для инженера по ИИ [06:52].

Разница между классическим центральным процессором (**CPU**) и GPU заключается в степени параллелизма:

*   **CPU (Central Processing Unit):** классический процессор выполняет одну или несколько инструкций за цикл. Даже современные CPU ограничены десятками ядер.
*   **GPU (Graphics Processing Unit):** современные карты для ИИ способны выполнять более 100 000 инструкций за один цикл [04:56]. Они оптимизированы для обработки огромного количества математических операций одновременно.

Основная ценность GPU сегодня — это способность производить **матричное умножение** в один цикл [06:01]. Поскольку нейросети оперируют тензорами (многомерными массивами чисел), чипы, созданные для рендеринга видеоигр (где тоже нужно быстро пересчитывать координаты векторов и матриц), оказались идеально подходящими для обучения больших языковых моделей (LLM). Именно поэтому Google называет свои чипы **TPU** (Tensor Processing Units) — название, которое, по мнению Аппенцеллера, более точно отражает суть их текущей работы [05:47].

## 👑 Король рынка и его конкуренты
[[JUMP:07:29]]

На данный момент компания **Nvidia** занимает доминирующее положение в индустрии («King off the hill», по выражению Аппенцеллера) [07:29]. Их чип **A100** стал «рабочей лошадкой» текущей революции ИИ, а на смену ему приходит еще более мощный **H100**.

Однако экосистема включает и других крупных игроков:

1.  **Intel:** предлагает решения **Gaudi** и Gaudi 2, а также графические карты серии Arc [07:43].
2.  **AMD:** активно развивает свои чипы в этом сегменте.
3.  **Облачные гиганты:** Google использует собственные чипы TPU; Amazon (AWS) разработала **Trainium** для обучения и **Inferentia** для исполнения (инференса) моделей [07:56].
4.  **Cerebras:** компания создала чип **Wafer Scale Engine 2**, который содержит рекордные 2,6 триллиона транзисторов (для сравнения: в Apple M1 их «всего» 16 миллиардов) [11:39].

Гвидо Аппенцеллер подчеркивает, что лидерство Nvidia обусловлено не только характеристиками «железа». По чистой производительности (FLOPS — количество операций с плавающей точкой в секунду) многие конкуренты сопоставимы с Nvidia [08:34]. Главное преимущество компании — **зрелая программная экосистема CUDA**. Когда исследователь берет открытую модель из интернета, она почти всегда оптимизирована под Nvidia «из коробки» [09:12]. Работа с другими чипами часто требует ручной оптимизации, что замедляет процесс разработки.

## ⚡ Оптимизация и «магия» битов
[[JUMP:09:40]]

Разработчики ИИ используют различные хитрости, чтобы «выжать» из чипов максимум. Одной из ключевых техник является снижение точности вычислений. В классических расчетах используются 32-битные числа с плавающей точкой. Однако эксперты обнаружили, что для обучения нейросетей такая точность часто избыточна.

*   Стандарт: 32 бита.
*   Оптимизация: переход на 16 бит или даже 8 бит [10:07].
*   Результат: использование более коротких целых чисел позволяет ускорить расчеты в разы, если правильно нормализовать данные, чтобы избежать ошибок переполнения [10:20].

## 📉 Закон Мура: жив или мертв?
[[JUMP:12:07]]

Обсуждая будущее индустрии, Аппенцеллер затрагивает судьбу закона Мура (удвоение количества транзисторов на чипе каждые два года). По его мнению, закон Мура **все еще жив** с точки зрения плотности размещения транзисторов: графики показывают, что кривая роста сохраняется [12:07].

Однако возникла проблема другого рода — прекращение действия **закона масштабирования Деннарда** (Dennard scaling) [12:20]. Раньше с увеличением плотности транзисторов потребляемая мощность на единицу площади падала, что позволяло наращивать тактовую частоту. Но последние 10–15 лет частота процессоров практически не растет [12:48].

Это привело к двум важным последствиям:

1.  **Неизбежный параллелизм:** так как одно ядро больше не становится быстрее, единственный способ нарастить мощность — добавлять тысячи мелких ядер, работающих параллельно.
2.  **Энергетический кризис:** чипы становятся невероятно «прожорливыми». Современные игровые и серверные видеокарты потребляют сотни ватт (порой до 500 Вт и выше) [13:29].

В дата-центрах это порождает проблемы с теплоотводом. По словам Аппенцеллера, индустрия вынуждена внедрять инновационные решения, такие как жидкостное охлаждение, поскольку плотность энергии в AI-чипах достигла критических значений [13:54]. Таким образом, хотя транзисторы продолжают уменьшаться, физические ограничения по питанию и нагреву становятся главным барьером на пути прогресса.