Стэндфордский курс CS336: Как ускорить языковые модели с помощью Triton и CUDA

Курс CS336 в Стэнфордском университете продолжает погружение в архитектуру современных языковых моделей. Шестая лекция посвящена критически важному аспекту — превращению теоретических вычислений в высокопроизводительный код для графических процессоров (GPU). Инструктор подробно разбирает, как разработчики переходят от стандартных функций PyTorch к написанию кастомных ядер на CUDA и Triton, чтобы выжать максимум из «железа» уровня H100.

🏗️ Анатомия GPU: Почему стандартный код часто бывает медленным 2:17

Прежде чем приступать к оптимизации, необходимо понимать иерархию памяти и вычислительную модель GPU. Современные ускорители, такие как NVIDIA A100 или H100, состоят из множества потоковых мультипроцессоров (SM). Каждый SM запускает огромное количество потоков, которые группируются в блоки.

Ключевые элементы иерархии памяти:

DRAM (Глобальная память): Большая, но медленная.
L1/L2 Кэши: Намного быстрее глобальной памяти.
Регистровый файл: Самая быстрая память, доступная каждому потоку.

По мнению лектора, одним из важнейших понятий в разработке является арифметическая интенсивность — соотношение количества вычислительных операций (FLOPs) к объему передаваемых данных (байты). В современной архитектуре вычисления масштабируются гораздо быстрее, чем пропускная способность памяти. Это приводит к тому, что большинство операций в глубоком обучении ограничены памятью (memory-bound), и только матричное умножение при грамотном подходе становится ограниченным вычислительной мощностью (compute-bound).

⏱️ Золотое правило оптимизации: Сначала профилируй, потом пиши 7:09

Инструктор акцентирует внимание на распространенной ошибке студентов: тратить часы на оптимизацию участка кода, который не является «бутылочным горлышком». Главный тезис лекции гласит: написание высокопроизводительного кода невозможно без детального бенчмаркинга и профилирования.

Инструментарий для анализа производительности:

Wall clock time: Измерение чистого времени выполнения функции.
PyTorch Profiler: Встроенный инструмент, позволяющий увидеть разбивку по операциям на CPU и GPU.
NVIDIA Nsight Systems (nsys): Профессиональный инструмент для глубокого анализа поведения GPU, очередей команд и взаимодействия с CPU.

Важные нюансы при замере времени:

Прогрев (Warm-up): Первые запуски кода всегда медленнее из-за инициализации и компиляции инструкций «на лету».
Синхронизация: Поскольку CPU и GPU работают асинхронно, для точного замера необходимо использовать torch.cuda.synchronize(). Без этого вы измерите лишь время постановки задачи в очередь, а не её выполнение.

🏎️ Визуализация асинхронности через Nsight Systems 33:43

Использование продвинутого профилировщика NVIDIA Nsight Systems позволяет увидеть «подкапотную» работу модели MLP. Лектор демонстрирует, что CPU обычно работает с сильным опережением, заполняя очередь команд для GPU.

Однако производительность может резко упасть из-за обычных на первый взгляд действий. По словам инструктора, вставка print(loss) в цикл обучения мгновенно создает «бутылочное горлышко». Чтобы напечатать значение, CPU вынужден ждать, пока GPU завершит вычисления и вернет данные. В профилировщике это выглядит как огромные пустые промежутки в работе CPU (ожидание синхронизации), что мешает ему заранее планировать следующие ядра для GPU.

🧩 Слияние ядер (Kernel Fusion) на примере GLU 44:23

Основной способ борьбы с ограничениями памяти — это слияние ядер (kernel fusion). Вместо того чтобы гонять данные из глобальной памяти в SM и обратно для каждой мелкой операции (сложение, умножение, возведение в степень), лучше написать одно «ядро», которое выполнит всё сразу.

На примере функции активации GLU (Gated Linear Unit) лектор сравнивает производительность:

Ручной Python-код: 8.1 мс (медленно из-за множества запусков мелких ядер).
Нативный PyTorch GLU: 1.1 мс.
Собственное ядро на CUDA C++: 1.8 мс.

Хотя кастомное ядро на C++ оказалось чуть медленнее оптимизированного библиотечного решения PyTorch, оно в 4.5 раза быстрее наивной реализации на Python.

🐍 Triton: Программирование GPU на языке Python 1:02:12

Triton — это язык программирования и компилятор от OpenAI, который позволяет писать высокопроизводительные ядра для GPU прямо на Python. В отличие от CUDA, где нужно управлять каждым потоком вручную, в Triton разработчик оперирует блоками данных.

Преимущества Triton, выделенные в лекции:

Автоматизация: Компилятор сам заботится о совмещении запросов к памяти (coalescing) и управлении разделяемой памятью (shared memory).
Читаемость: Код выглядит как обычный Python с векторными операциями.
Производительность: Triton-ядро для GLU показало результат 1.84 мс, что идентично коду на C++, но при этом его гораздо проще отлаживать.

Для самых любознательных лектор продемонстрировал PTX-код (промежуточное представление низкого уровня), который генерирует Triton. Там видно, как данные загружаются сразу по четыре значения за раз для оптимизации шины памяти.

⚡ Нужно ли писать ядра вручную? Роль torch.compile 1:12:12

В конце занятия был затронут вопрос: стоит ли тратить время на написание кастомных ядер, если есть JIT-компиляторы? Современный torch.compile умеет автоматически выполнять слияние ядер и подбирать оптимальные алгоритмы под конкретное «железо».

Результаты теста GLU с torch.compile показали время 1.47 мс — это быстрее, чем написанное вручную ядро на Triton или C++. По мнению спикера, лезть в написание собственных ядер стоит только в двух случаях:

Если вы создаете принципиально новую архитектуру, которую стандартный компилятор не может эффективно «схлопнуть».
Если стандартные библиотеки не обеспечивают нужной утилизации GPU (как это было в случае с Flash Attention).