# Ади Фукс: «Современные ускорители ИИ — это идеи 1970-х, дождавшиеся своего часа»

Источник: https://www.youtube.com/watch?v=VQoyypYTz2U
Канал: Yannic Kilcher
Опубликовано: 20.02.2022

---

Янник Кильхер беседует с экспертом в области компьютерной архитектуры Ади Фуксом о прошлом, настоящем и будущем аппаратных ускорителей ИИ. В ходе дискуссии участники разбирают, почему классические процессоры перестали справляться с современными задачами и как индустрия вернулась к идеям 1970-х годов, чтобы создать современные TPU и нейроморфные чипы.

## 🧱 Почему классические процессоры достигли предела
[[JUMP:08:24]]

История ускорителей ИИ началась с фундаментальных физических и экономических ограничений полупроводниковой индустрии. Ади Фукс выделяет три ключевых этапа:

1.  **Закон Мура (Moore's Law):** Экспоненциальное увеличение количества транзисторов на кристалле [08:24].
2.  **Масштабирование Деннарда (Dennard Scaling):** До 2000-х годов уменьшение транзистора позволяло пропорционально снижать напряжение и увеличивать частоту [11:51]. Однако с начала нулевых напряжение перестало снижаться так же быстро, что привело к резкому росту плотности тепловыделения (ватт на кв. мм) [12:31].
3.  **Стена утилизации (Dark Silicon):** По словам Фукса, к 2010–2011 годам стало ясно, что невозможно запитать все транзисторы на чипе одновременно из-за риска перегрева [16:25]. Это явление получило название «темный кремний» (Dark Silicon): даже если у вас есть миллион ядер, большая их часть должна быть выключена в любой момент времени из-за ограничений по питанию и охлаждению [16:39].

Вместо того чтобы делать одно ядро быстрее, индустрия перешла к многоядерности (параллелизму), но и здесь возник тупик [13:09]. Решением стало создание специализированных ускорителей (ASIC) — чипов, которые делают одну задачу (например, перемножение матриц или кодирование видео) крайне эффективно, но бесполезны для других задач [18:12].

## 🎮 Эпоха GPU: От графики к нейросетям
[[JUMP:09:16]]

GPU не создавались для ИИ, но оказались идеальным инструментом для глубокого обучения благодаря способности выполнять тысячи потоков вычислений одновременно. Ади Фукс отмечает два знаковых момента:

*   **AlexNet (2012):** В аннотации работы авторы прямо указали, что эффективная реализация на GPU позволила им обучить огромную на тот момент модель за разумное время [09:44].
*   **Transformer (2017):** Авторы статьи «Attention Is All You Need» подчеркивали, что обучили модель за 3,5 дня на GPU, что было на порядки быстрее предыдущих решений на базе LSTM или RNN [10:21].

Преимущество GPU заключается в их гибкости и зрелом программном стеке (CUDA) [39:44]. Однако, по мнению Фукса, у них есть архитектурные ограничения. Например, NVIDIA A100 использует память с высокой пропускной способностью (HBM), которая быстра, но ограничена по объему [22:37]. Для обучения моделей с сотнями миллиардов параметров требуются сотни таких GPU просто для того, чтобы модель уместилась в памяти [23:03].

## 🧬 Архитектуры ускорителей: TPU, Groq и Habana
[[JUMP:28:11]]

Современные специализированные ускорители ИИ (AI Accelerators) делятся на несколько архитектурных лагерей. Большинство идей, которые сейчас считаются «прорывными», были предложены еще в 1970-х и 1980-х годах [56:28].

### Систолические массивы и VLIW
В этом лагере данные «текут» через сетку вычислительных элементов, что идеально подходит для перемножения матриц [29:45].

*   **Google TPU:** Самый известный пример, представленный на конференции ISCA в 2017 году [31:43]. Он использует большой систолический массив и специализированный компилятор для исполнения графов нейросетей [31:57].
*   **Groq:** Основан бывшими архитекторами TPU. Они взяли концепцию детерминированного исполнения, где компилятор точно знает, в какой такт времени данные окажутся в конкретном вычислительном блоке [32:38].
*   **Habana:** (куплена Intel) также использует комбинацию VLIW (очень длинное командное слово) и систолических структур [33:04].

### Потоковая обработка данных (Dataflow)
Компании вроде **SambaNova** и **Tenstorrent** отходят от классической модели фон Неймана, где процессор постоянно запрашивает инструкции и данные из памяти [36:08]. Вместо этого программа представляется как граф вычислений, который статически отображается на аппаратные блоки [37:44]. Данные просто текут от одного узла к другому, без необходимости каждый раз расшифровывать микроинструкции [38:21].

Ади Фукс приводит в пример поучительную историю компании **Wave Computing**. Они были пионерами реконфигурируемого Dataflow в 2017 году, выпустив чип с 15 000 ядер, работающими на частоте 6,7 ГГц [41:15]. Однако компания обанкротилась, так как сложность написания компилятора для такой архитектуры оказалась непосильной [42:33].

## 🧠 Вычисления в памяти (In-Memory Computing)
[[JUMP:42:47]]

Огромная часть энергии в современных чипах тратится не на сами вычисления, а на пересылку данных между памятью и процессором [45:42]. 

*   **Scratchpad Memory:** Вместо автоматического кэша (как в CPU) используется память, полностью контролируемая компилятором [43:12]. Это позволяет заранее планировать потоки данных.
*   **Processor-in-Memory (PIM):** Такие компании, как **Mythic**, пытаются встроить логику прямо в ячейки памяти (например, используя мемристоры) [44:32]. Это позволяет выполнять скалярное произведение (dot product) в аналоговой форме прямо внутри модуля памяти, что радикально экономит энергию [45:28].

## 🔦 Оптические и нейроморфные вычисления
[[JUMP:46:59]]

Самые экзотические подходы пытаются полностью изменить физику процесса:

*   **Оптические чипы (Lightmatter):** Основана выпускниками MIT. Они используют свет вместо электричества для выполнения аналоговых вычислений [47:24]. Потенциально это гораздо быстрее и энергоэффективнее, но сопряжено с огромными инженерными сложностями.
*   **Нейроморфные чипы:** Пытаются имитировать работу мозга через «спайковые нейронные сети» (SNN) [48:56]. Вместо чисел с плавающей запятой (BF16) используются электрические импульсы. Ади Фукс считает это перспективным, но пока далеким от массового рынка направлением [48:28].

## 🏗️ «Аппаратная лотерея» и будущее индустрии
[[JUMP:51:46]]

Ади Фукс и Янник Кильхер обсуждают философский вопрос: не ограничивает ли текущее железо развитие ИИ? Этот феномен называют «аппаратной лотереей».

*   Мы используем Трансформеры и сверточные сети (CNN), потому что они идеально ложатся на матричные ускорители [51:18].
*   Графовые нейронные сети (GNN) пока не показывают своего максимума, так как для них нет специализированного железа, а производители не строят его, потому что приложения на базе GNN пока не доминируют на рынке [51:56]. Это замкнутый круг (проблема курицы и яйца) [53:30].

**«Все старое снова становится новым»** — главный тезис Фукса [55:33]. Архитектурные основы TPU и современных ускорителей были заложены в 70–80-х годах, но только сейчас технологии производства и объем данных позволили реализовать эти идеи в коммерческом масштабе [56:42]. 

Фукс прогнозирует, что в ближайшие 2–3 года архитектуры стабилизируются [54:25]. На рынке останется 3–4 доминирующих программных стека, оптимизированных под конкретные типы моделей [54:51]. Для новых стартапов в области железа сейчас «самое захватывающее и одновременно самое сложное время» [1:00:35].