Почему Nvidia доминирует на рынке ИИ-железа и что не так с законом Мура

В эпоху расцвета генеративного искусственного интеллекта аппаратное обеспечение (hardware) перестало быть просто «железом» на заднем плане, превратившись в ключевой стратегический ресурс. В условиях, когда спрос на вычислительные мощности в десять раз превышает предложение, понимание архитектуры чипов становится критически важным для бизнеса и разработчиков. Специальный советник фонда a16z и бывший технический директор Intel Data Center Group Гвидо Аппенцеллер (Guido Appenzeller) объясняет, почему именно игровые видеокарты стали фундаментом нейросетевой революции и что на самом деле происходит с законом Мура.

🧠 От графики к тензорам: архитектура AI-чипов 4:03

Современные алгоритмы ИИ работают на специализированных чипах, называемых AI-акселераторами . По своей структуре они крайне близки к графическим процессорам (GPU). Гвидо Аппенцеллер иронично замечает, что вряд ли кто-то мог предсказать, как домашний игровой ПК или ферма для майнинга биткоинов станут идеальным инструментом для инженера по ИИ .

Разница между классическим центральным процессором (CPU) и GPU заключается в степени параллелизма:

CPU (Central Processing Unit): классический процессор выполняет одну или несколько инструкций за цикл. Даже современные CPU ограничены десятками ядер.
GPU (Graphics Processing Unit): современные карты для ИИ способны выполнять более 100 000 инструкций за один цикл . Они оптимизированы для обработки огромного количества математических операций одновременно.

Основная ценность GPU сегодня — это способность производить матричное умножение в один цикл . Поскольку нейросети оперируют тензорами (многомерными массивами чисел), чипы, созданные для рендеринга видеоигр (где тоже нужно быстро пересчитывать координаты векторов и матриц), оказались идеально подходящими для обучения больших языковых моделей (LLM). Именно поэтому Google называет свои чипы TPU (Tensor Processing Units) — название, которое, по мнению Аппенцеллера, более точно отражает суть их текущей работы .

👑 Король рынка и его конкуренты 7:29

На данный момент компания Nvidia занимает доминирующее положение в индустрии («King off the hill», по выражению Аппенцеллера) . Их чип A100 стал «рабочей лошадкой» текущей революции ИИ, а на смену ему приходит еще более мощный H100.

Однако экосистема включает и других крупных игроков:

Intel: предлагает решения Gaudi и Gaudi 2, а также графические карты серии Arc .
AMD: активно развивает свои чипы в этом сегменте.
Облачные гиганты: Google использует собственные чипы TPU; Amazon (AWS) разработала Trainium для обучения и Inferentia для исполнения (инференса) моделей .
Cerebras: компания создала чип Wafer Scale Engine 2, который содержит рекордные 2,6 триллиона транзисторов (для сравнения: в Apple M1 их «всего» 16 миллиардов) .

Гвидо Аппенцеллер подчеркивает, что лидерство Nvidia обусловлено не только характеристиками «железа». По чистой производительности (FLOPS — количество операций с плавающей точкой в секунду) многие конкуренты сопоставимы с Nvidia . Главное преимущество компании — зрелая программная экосистема CUDA. Когда исследователь берет открытую модель из интернета, она почти всегда оптимизирована под Nvidia «из коробки» . Работа с другими чипами часто требует ручной оптимизации, что замедляет процесс разработки.

⚡ Оптимизация и «магия» битов 9:40

Разработчики ИИ используют различные хитрости, чтобы «выжать» из чипов максимум. Одной из ключевых техник является снижение точности вычислений. В классических расчетах используются 32-битные числа с плавающей точкой. Однако эксперты обнаружили, что для обучения нейросетей такая точность часто избыточна.

Стандарт: 32 бита.
Оптимизация: переход на 16 бит или даже 8 бит .
Результат: использование более коротких целых чисел позволяет ускорить расчеты в разы, если правильно нормализовать данные, чтобы избежать ошибок переполнения .

📉 Закон Мура: жив или мертв? 12:07

Обсуждая будущее индустрии, Аппенцеллер затрагивает судьбу закона Мура (удвоение количества транзисторов на чипе каждые два года). По его мнению, закон Мура все еще жив с точки зрения плотности размещения транзисторов: графики показывают, что кривая роста сохраняется .

Однако возникла проблема другого рода — прекращение действия закона масштабирования Деннарда (Dennard scaling) . Раньше с увеличением плотности транзисторов потребляемая мощность на единицу площади падала, что позволяло наращивать тактовую частоту. Но последние 10–15 лет частота процессоров практически не растет .

Это привело к двум важным последствиям:

Неизбежный параллелизм: так как одно ядро больше не становится быстрее, единственный способ нарастить мощность — добавлять тысячи мелких ядер, работающих параллельно.
Энергетический кризис: чипы становятся невероятно «прожорливыми». Современные игровые и серверные видеокарты потребляют сотни ватт (порой до 500 Вт и выше) .

В дата-центрах это порождает проблемы с теплоотводом. По словам Аппенцеллера, индустрия вынуждена внедрять инновационные решения, такие как жидкостное охлаждение, поскольку плотность энергии в AI-чипах достигла критических значений . Таким образом, хотя транзисторы продолжают уменьшаться, физические ограничения по питанию и нагреву становятся главным барьером на пути прогресса.