Ади Фукс: «Современные ускорители ИИ — это идеи 1970-х, дождавшиеся своего часа»

Янник Кильхер беседует с экспертом в области компьютерной архитектуры Ади Фуксом о прошлом, настоящем и будущем аппаратных ускорителей ИИ. В ходе дискуссии участники разбирают, почему классические процессоры перестали справляться с современными задачами и как индустрия вернулась к идеям 1970-х годов, чтобы создать современные TPU и нейроморфные чипы.

🧱 Почему классические процессоры достигли предела 8:24

История ускорителей ИИ началась с фундаментальных физических и экономических ограничений полупроводниковой индустрии. Ади Фукс выделяет три ключевых этапа:

Закон Мура (Moore's Law): Экспоненциальное увеличение количества транзисторов на кристалле .
Масштабирование Деннарда (Dennard Scaling): До 2000-х годов уменьшение транзистора позволяло пропорционально снижать напряжение и увеличивать частоту . Однако с начала нулевых напряжение перестало снижаться так же быстро, что привело к резкому росту плотности тепловыделения (ватт на кв. мм) .
Стена утилизации (Dark Silicon): По словам Фукса, к 2010–2011 годам стало ясно, что невозможно запитать все транзисторы на чипе одновременно из-за риска перегрева . Это явление получило название «темный кремний» (Dark Silicon): даже если у вас есть миллион ядер, большая их часть должна быть выключена в любой момент времени из-за ограничений по питанию и охлаждению .

Вместо того чтобы делать одно ядро быстрее, индустрия перешла к многоядерности (параллелизму), но и здесь возник тупик . Решением стало создание специализированных ускорителей (ASIC) — чипов, которые делают одну задачу (например, перемножение матриц или кодирование видео) крайне эффективно, но бесполезны для других задач .

🎮 Эпоха GPU: От графики к нейросетям 9:16

GPU не создавались для ИИ, но оказались идеальным инструментом для глубокого обучения благодаря способности выполнять тысячи потоков вычислений одновременно. Ади Фукс отмечает два знаковых момента:

AlexNet (2012): В аннотации работы авторы прямо указали, что эффективная реализация на GPU позволила им обучить огромную на тот момент модель за разумное время .
Transformer (2017): Авторы статьи «Attention Is All You Need» подчеркивали, что обучили модель за 3,5 дня на GPU, что было на порядки быстрее предыдущих решений на базе LSTM или RNN .

Преимущество GPU заключается в их гибкости и зрелом программном стеке (CUDA) . Однако, по мнению Фукса, у них есть архитектурные ограничения. Например, NVIDIA A100 использует память с высокой пропускной способностью (HBM), которая быстра, но ограничена по объему . Для обучения моделей с сотнями миллиардов параметров требуются сотни таких GPU просто для того, чтобы модель уместилась в памяти .

🧬 Архитектуры ускорителей: TPU, Groq и Habana 28:11

Современные специализированные ускорители ИИ (AI Accelerators) делятся на несколько архитектурных лагерей. Большинство идей, которые сейчас считаются «прорывными», были предложены еще в 1970-х и 1980-х годах .

Систолические массивы и VLIW

В этом лагере данные «текут» через сетку вычислительных элементов, что идеально подходит для перемножения матриц .

Google TPU: Самый известный пример, представленный на конференции ISCA в 2017 году . Он использует большой систолический массив и специализированный компилятор для исполнения графов нейросетей .
Groq: Основан бывшими архитекторами TPU. Они взяли концепцию детерминированного исполнения, где компилятор точно знает, в какой такт времени данные окажутся в конкретном вычислительном блоке .
Habana: (куплена Intel) также использует комбинацию VLIW (очень длинное командное слово) и систолических структур .

Потоковая обработка данных (Dataflow)

Компании вроде SambaNova и Tenstorrent отходят от классической модели фон Неймана, где процессор постоянно запрашивает инструкции и данные из памяти . Вместо этого программа представляется как граф вычислений, который статически отображается на аппаратные блоки . Данные просто текут от одного узла к другому, без необходимости каждый раз расшифровывать микроинструкции .

Ади Фукс приводит в пример поучительную историю компании Wave Computing. Они были пионерами реконфигурируемого Dataflow в 2017 году, выпустив чип с 15 000 ядер, работающими на частоте 6,7 ГГц . Однако компания обанкротилась, так как сложность написания компилятора для такой архитектуры оказалась непосильной .

🧠 Вычисления в памяти (In-Memory Computing) 42:47

Огромная часть энергии в современных чипах тратится не на сами вычисления, а на пересылку данных между памятью и процессором .

Scratchpad Memory: Вместо автоматического кэша (как в CPU) используется память, полностью контролируемая компилятором . Это позволяет заранее планировать потоки данных.
Processor-in-Memory (PIM): Такие компании, как Mythic, пытаются встроить логику прямо в ячейки памяти (например, используя мемристоры) . Это позволяет выполнять скалярное произведение (dot product) в аналоговой форме прямо внутри модуля памяти, что радикально экономит энергию .

🔦 Оптические и нейроморфные вычисления 46:59

Самые экзотические подходы пытаются полностью изменить физику процесса:

Оптические чипы (Lightmatter): Основана выпускниками MIT. Они используют свет вместо электричества для выполнения аналоговых вычислений . Потенциально это гораздо быстрее и энергоэффективнее, но сопряжено с огромными инженерными сложностями.
Нейроморфные чипы: Пытаются имитировать работу мозга через «спайковые нейронные сети» (SNN) . Вместо чисел с плавающей запятой (BF16) используются электрические импульсы. Ади Фукс считает это перспективным, но пока далеким от массового рынка направлением .

🏗️ «Аппаратная лотерея» и будущее индустрии 51:46

Ади Фукс и Янник Кильхер обсуждают философский вопрос: не ограничивает ли текущее железо развитие ИИ? Этот феномен называют «аппаратной лотереей».

Мы используем Трансформеры и сверточные сети (CNN), потому что они идеально ложатся на матричные ускорители .
Графовые нейронные сети (GNN) пока не показывают своего максимума, так как для них нет специализированного железа, а производители не строят его, потому что приложения на базе GNN пока не доминируют на рынке . Это замкнутый круг (проблема курицы и яйца) .

«Все старое снова становится новым» — главный тезис Фукса . Архитектурные основы TPU и современных ускорителей были заложены в 70–80-х годах, но только сейчас технологии производства и объем данных позволили реализовать эти идеи в коммерческом масштабе .

Фукс прогнозирует, что в ближайшие 2–3 года архитектуры стабилизируются . На рынке останется 3–4 доминирующих программных стека, оптимизированных под конкретные типы моделей . Для новых стартапов в области железа сейчас «самое захватывающее и одновременно самое сложное время» .