Райнер Поуп: «Почему ИИ-чипы работают именно так»

Dwarkesh Patel 20,1 тыс. 1 ч 20 мин 3 мин 22.05.2026
Главное

Архитектура ИИ-чипов: от базовых логических гейтов до систолических массивов 🧠 0:00

Проектирование микросхем — это искусство баланса между вычислениями и стоимостью передачи данных. В основе современного ИИ-чипа лежит фундаментальная задача: эффективное умножение матриц. По словам Райнера Поупа, генерального директора MatX, понимание работы «железа» начинается с базовых примитивов, которые в конечном итоге масштабируются до сложнейших вычислительных систем.

🛠 Фундаментальные кирпичики: логика и арифметика 0:25

На самом низком уровне чип состоит из логических вентилей (AND, OR, NOT), соединенных металлическими трассами. Основная вычислительная операция, выполняемая ИИ-чипами — это умножение матриц, которое на уровне «железа» сводится к операции «умножить-накопить» (multiply-accumulate, MAC).

С точки зрения Дваркеша Патела, интересным моментом является масштабируемость: Nvidia в последних поколениях чипов (B300) начала официально признавать, что при переходе на FP4 достигается трехкратное ускорение по сравнению с FP8, что близко к теоретическому квадратичному выигрышу от уменьшения точности.

⚡ Проблема передачи данных и систолические массивы 16:11

Значительная часть площади чипа тратится не на сами вычисления, а на перемещение данных из регистрового файла в АЛУ (арифметико-логическое устройство) и обратно через мультиплексоры (mux). Как объясняет Поуп, работа мультиплексора — это «невидимая» для программиста, но чрезвычайно затратная с точки зрения площади операция.

Для решения этой проблемы были внедрены систолические массивы (Tensor Cores в терминологии Nvidia).

По мнению Поупа, это фундаментальный сдвиг: вместо того чтобы тратить ресурсы на провода к регистрам, архитекторы стараются наклонить баланс в сторону самих вычислений.

⏱ Синхронизация и тактовая частота 39:08

Тактовая частота определяет, как часто вся схема синхронизируется через регистры.

💻 ASIC vs FPGA vs CPU 52:25

Дискуссия затрагивает разницу в подходах к проектированию:

В завершение Поуп отмечает, что будущее архитектур, возможно, лежит в «разбиваемых систолических массивах» (splittable systolic arrays), которые могут адаптироваться под разные размеры матриц, сохраняя при этом эффективность GPU и простоту TPU.

💬 Цитаты

«Вся работа, которая масштабируется как размер регистра, — это перемещение данных из регистров в логику, что во много раз дороже самих вычислений.»

Райнер Поуп 21:14

«В обоих случаях [inference и chip design] вы пытаетесь максимизировать вычисления относительно коммуникации.»

Дваркеш Пател 35:16
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Систолический массив
Сетка процессоров, которые передают данные друг другу через соседние узлы, минимизируя доступ к внешней памяти.
LUT (Lookup Table)
Таблица истинности в FPGA, позволяющая программно имитировать логику любого вентиля.
MAC (Multiply-Accumulate)
Базовая операция умножения пары чисел с последующим прибавлением к текущей сумме.
MUX (Мультиплексор)
Устройство, выбирающее один входной сигнал из нескольких и передающее его на выход.
Скретчпад (Scratchpad)
Тип локальной памяти с предсказуемым временем доступа, в отличие от кэша с его непредсказуемой логикой.
📊 Цифры
⚖️ Другая сторона
Инженерия Reiner Pope MatX systolic array Tensor Core chip design