Ади Фукс: «Современные ускорители ИИ — это идеи 1970-х, дождавшиеся своего часа»

Yannic Kilcher 86,3 тыс. 1 ч 2 мин 5 мин 20.02.2022
Главное

Янник Кильхер беседует с экспертом в области компьютерной архитектуры Ади Фуксом о прошлом, настоящем и будущем аппаратных ускорителей ИИ. В ходе дискуссии участники разбирают, почему классические процессоры перестали справляться с современными задачами и как индустрия вернулась к идеям 1970-х годов, чтобы создать современные TPU и нейроморфные чипы.

🧱 Почему классические процессоры достигли предела 8:24

История ускорителей ИИ началась с фундаментальных физических и экономических ограничений полупроводниковой индустрии. Ади Фукс выделяет три ключевых этапа:

  1. Закон Мура (Moore's Law): Экспоненциальное увеличение количества транзисторов на кристалле .
  2. Масштабирование Деннарда (Dennard Scaling): До 2000-х годов уменьшение транзистора позволяло пропорционально снижать напряжение и увеличивать частоту . Однако с начала нулевых напряжение перестало снижаться так же быстро, что привело к резкому росту плотности тепловыделения (ватт на кв. мм) .
  3. Стена утилизации (Dark Silicon): По словам Фукса, к 2010–2011 годам стало ясно, что невозможно запитать все транзисторы на чипе одновременно из-за риска перегрева . Это явление получило название «темный кремний» (Dark Silicon): даже если у вас есть миллион ядер, большая их часть должна быть выключена в любой момент времени из-за ограничений по питанию и охлаждению .

Вместо того чтобы делать одно ядро быстрее, индустрия перешла к многоядерности (параллелизму), но и здесь возник тупик . Решением стало создание специализированных ускорителей (ASIC) — чипов, которые делают одну задачу (например, перемножение матриц или кодирование видео) крайне эффективно, но бесполезны для других задач .

🎮 Эпоха GPU: От графики к нейросетям 9:16

GPU не создавались для ИИ, но оказались идеальным инструментом для глубокого обучения благодаря способности выполнять тысячи потоков вычислений одновременно. Ади Фукс отмечает два знаковых момента:

Преимущество GPU заключается в их гибкости и зрелом программном стеке (CUDA) . Однако, по мнению Фукса, у них есть архитектурные ограничения. Например, NVIDIA A100 использует память с высокой пропускной способностью (HBM), которая быстра, но ограничена по объему . Для обучения моделей с сотнями миллиардов параметров требуются сотни таких GPU просто для того, чтобы модель уместилась в памяти .

🧬 Архитектуры ускорителей: TPU, Groq и Habana 28:11

Современные специализированные ускорители ИИ (AI Accelerators) делятся на несколько архитектурных лагерей. Большинство идей, которые сейчас считаются «прорывными», были предложены еще в 1970-х и 1980-х годах .

Систолические массивы и VLIW

В этом лагере данные «текут» через сетку вычислительных элементов, что идеально подходит для перемножения матриц .

Потоковая обработка данных (Dataflow)

Компании вроде SambaNova и Tenstorrent отходят от классической модели фон Неймана, где процессор постоянно запрашивает инструкции и данные из памяти . Вместо этого программа представляется как граф вычислений, который статически отображается на аппаратные блоки . Данные просто текут от одного узла к другому, без необходимости каждый раз расшифровывать микроинструкции .

Ади Фукс приводит в пример поучительную историю компании Wave Computing. Они были пионерами реконфигурируемого Dataflow в 2017 году, выпустив чип с 15 000 ядер, работающими на частоте 6,7 ГГц . Однако компания обанкротилась, так как сложность написания компилятора для такой архитектуры оказалась непосильной .

🧠 Вычисления в памяти (In-Memory Computing) 42:47

Огромная часть энергии в современных чипах тратится не на сами вычисления, а на пересылку данных между памятью и процессором .

🔦 Оптические и нейроморфные вычисления 46:59

Самые экзотические подходы пытаются полностью изменить физику процесса:

🏗️ «Аппаратная лотерея» и будущее индустрии 51:46

Ади Фукс и Янник Кильхер обсуждают философский вопрос: не ограничивает ли текущее железо развитие ИИ? Этот феномен называют «аппаратной лотереей».

«Все старое снова становится новым» — главный тезис Фукса . Архитектурные основы TPU и современных ускорителей были заложены в 70–80-х годах, но только сейчас технологии производства и объем данных позволили реализовать эти идеи в коммерческом масштабе .

Фукс прогнозирует, что в ближайшие 2–3 года архитектуры стабилизируются . На рынке останется 3–4 доминирующих программных стека, оптимизированных под конкретные типы моделей . Для новых стартапов в области железа сейчас «самое захватывающее и одновременно самое сложное время» .

💬 Цитаты

«Мы не можем заставить одну задачу работать быстрее, поэтому мы создаем тысячи ядер, работающих с той же скоростью.»

«Архитектура железа сегодня является одновременно ключевым катализатором и ограничителем того, что мы можем достичь в ИИ.»

«Все старое снова становится новым: идеи систолических массивов и Dataflow пришли из 1970-х.»

👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Dark Silicon
Явление, при котором значительная часть транзисторов чипа должна быть выключена из-за ограничений по тепловыделению.
Систолический массив
Сеть процессоров, где данные ритмично проходят через узлы, выполняя вычисления (обычно умножение матриц) без постоянного обращения к внешней памяти.
Dataflow
Архитектура, в которой выполнение инструкции определяется доступностью данных, а не программным счетчиком.
VLIW
Архитектура процессора с очень длинной командной строкой, где компилятор заранее упаковывает несколько операций в одну инструкцию.
📊 Цифры
🗓 Хронология
  1. 1970-е Разработка теоретических основ систолических массивов и потоковых вычислений.
  2. 2000-е Прекращение масштабирования Деннарда, рост тепловой плотности чипов.
  3. 2012 Выход AlexNet, доказавший эффективность GPU для глубокого обучения.
  4. 2017 Представление Google TPU и архитектуры Transformer.
  5. 2020-е Расцвет специализированных стартапов (Groq, SambaNova, Cerebras).
⚖️ Другая сторона
Технологии и IT AI Accelerators GPU TPU Dark Silicon Systolic Array