Янник Кильхер беседует с экспертом в области компьютерной архитектуры Ади Фуксом о прошлом, настоящем и будущем аппаратных ускорителей ИИ. В ходе дискуссии участники разбирают, почему классические процессоры перестали справляться с современными задачами и как индустрия вернулась к идеям 1970-х годов, чтобы создать современные TPU и нейроморфные чипы.
🧱 Почему классические процессоры достигли предела 8:24
История ускорителей ИИ началась с фундаментальных физических и экономических ограничений полупроводниковой индустрии. Ади Фукс выделяет три ключевых этапа:
- Закон Мура (Moore's Law): Экспоненциальное увеличение количества транзисторов на кристалле .
- Масштабирование Деннарда (Dennard Scaling): До 2000-х годов уменьшение транзистора позволяло пропорционально снижать напряжение и увеличивать частоту . Однако с начала нулевых напряжение перестало снижаться так же быстро, что привело к резкому росту плотности тепловыделения (ватт на кв. мм) .
- Стена утилизации (Dark Silicon): По словам Фукса, к 2010–2011 годам стало ясно, что невозможно запитать все транзисторы на чипе одновременно из-за риска перегрева . Это явление получило название «темный кремний» (Dark Silicon): даже если у вас есть миллион ядер, большая их часть должна быть выключена в любой момент времени из-за ограничений по питанию и охлаждению .
Вместо того чтобы делать одно ядро быстрее, индустрия перешла к многоядерности (параллелизму), но и здесь возник тупик . Решением стало создание специализированных ускорителей (ASIC) — чипов, которые делают одну задачу (например, перемножение матриц или кодирование видео) крайне эффективно, но бесполезны для других задач .
🎮 Эпоха GPU: От графики к нейросетям 9:16
GPU не создавались для ИИ, но оказались идеальным инструментом для глубокого обучения благодаря способности выполнять тысячи потоков вычислений одновременно. Ади Фукс отмечает два знаковых момента:
- AlexNet (2012): В аннотации работы авторы прямо указали, что эффективная реализация на GPU позволила им обучить огромную на тот момент модель за разумное время .
- Transformer (2017): Авторы статьи «Attention Is All You Need» подчеркивали, что обучили модель за 3,5 дня на GPU, что было на порядки быстрее предыдущих решений на базе LSTM или RNN .
Преимущество GPU заключается в их гибкости и зрелом программном стеке (CUDA) . Однако, по мнению Фукса, у них есть архитектурные ограничения. Например, NVIDIA A100 использует память с высокой пропускной способностью (HBM), которая быстра, но ограничена по объему . Для обучения моделей с сотнями миллиардов параметров требуются сотни таких GPU просто для того, чтобы модель уместилась в памяти .
🧬 Архитектуры ускорителей: TPU, Groq и Habana 28:11
Современные специализированные ускорители ИИ (AI Accelerators) делятся на несколько архитектурных лагерей. Большинство идей, которые сейчас считаются «прорывными», были предложены еще в 1970-х и 1980-х годах .
Систолические массивы и VLIW
В этом лагере данные «текут» через сетку вычислительных элементов, что идеально подходит для перемножения матриц .
- Google TPU: Самый известный пример, представленный на конференции ISCA в 2017 году . Он использует большой систолический массив и специализированный компилятор для исполнения графов нейросетей .
- Groq: Основан бывшими архитекторами TPU. Они взяли концепцию детерминированного исполнения, где компилятор точно знает, в какой такт времени данные окажутся в конкретном вычислительном блоке .
- Habana: (куплена Intel) также использует комбинацию VLIW (очень длинное командное слово) и систолических структур .
Потоковая обработка данных (Dataflow)
Компании вроде SambaNova и Tenstorrent отходят от классической модели фон Неймана, где процессор постоянно запрашивает инструкции и данные из памяти . Вместо этого программа представляется как граф вычислений, который статически отображается на аппаратные блоки . Данные просто текут от одного узла к другому, без необходимости каждый раз расшифровывать микроинструкции .
Ади Фукс приводит в пример поучительную историю компании Wave Computing. Они были пионерами реконфигурируемого Dataflow в 2017 году, выпустив чип с 15 000 ядер, работающими на частоте 6,7 ГГц . Однако компания обанкротилась, так как сложность написания компилятора для такой архитектуры оказалась непосильной .
🧠 Вычисления в памяти (In-Memory Computing) 42:47
Огромная часть энергии в современных чипах тратится не на сами вычисления, а на пересылку данных между памятью и процессором .
- Scratchpad Memory: Вместо автоматического кэша (как в CPU) используется память, полностью контролируемая компилятором . Это позволяет заранее планировать потоки данных.
- Processor-in-Memory (PIM): Такие компании, как Mythic, пытаются встроить логику прямо в ячейки памяти (например, используя мемристоры) . Это позволяет выполнять скалярное произведение (dot product) в аналоговой форме прямо внутри модуля памяти, что радикально экономит энергию .
🔦 Оптические и нейроморфные вычисления 46:59
Самые экзотические подходы пытаются полностью изменить физику процесса:
- Оптические чипы (Lightmatter): Основана выпускниками MIT. Они используют свет вместо электричества для выполнения аналоговых вычислений . Потенциально это гораздо быстрее и энергоэффективнее, но сопряжено с огромными инженерными сложностями.
- Нейроморфные чипы: Пытаются имитировать работу мозга через «спайковые нейронные сети» (SNN) . Вместо чисел с плавающей запятой (BF16) используются электрические импульсы. Ади Фукс считает это перспективным, но пока далеким от массового рынка направлением .
🏗️ «Аппаратная лотерея» и будущее индустрии 51:46
Ади Фукс и Янник Кильхер обсуждают философский вопрос: не ограничивает ли текущее железо развитие ИИ? Этот феномен называют «аппаратной лотереей».
- Мы используем Трансформеры и сверточные сети (CNN), потому что они идеально ложатся на матричные ускорители .
- Графовые нейронные сети (GNN) пока не показывают своего максимума, так как для них нет специализированного железа, а производители не строят его, потому что приложения на базе GNN пока не доминируют на рынке . Это замкнутый круг (проблема курицы и яйца) .
«Все старое снова становится новым» — главный тезис Фукса . Архитектурные основы TPU и современных ускорителей были заложены в 70–80-х годах, но только сейчас технологии производства и объем данных позволили реализовать эти идеи в коммерческом масштабе .
Фукс прогнозирует, что в ближайшие 2–3 года архитектуры стабилизируются . На рынке останется 3–4 доминирующих программных стека, оптимизированных под конкретные типы моделей . Для новых стартапов в области железа сейчас «самое захватывающее и одновременно самое сложное время» .