# Глава Cerebras рассказал Эндрю Ыну о чипах WSE и рынке инференса

Источник: https://www.youtube.com/watch?v=J1HruOyuRBE
Канал: Eye on AI
Опубликовано: 28.11.2024

---

В новом выпуске подкаста Eye on AI ведущий **Эндрю Ын (Andrew Ng)** обсудил с главой компании **Cerebras Systems** фундаментальный сдвиг на рынке аппаратного обеспечения для искусственного интеллекта. Основное внимание в беседе было уделено переходу индустрии от этапа создания моделей к их масштабному практическому применению (инференсу), технологическому превосходству гигантских кремниевых пластин над традиционными графическими чипами и перспективам преодоления монополии Nvidia. Собеседники подробно разобрали архитектурные ограничения современных GPU, перспективы открытого программного обеспечения и геополитические вызовы, стоящие перед полупроводниковой отраслью.

## ⚡ Революция инференса: почему 2024 год изменил правила игры
[[JUMP:0:00]]

По оценке руководителя Cerebras Systems, с 2014 по конец 2023 года индустрия находилась в фазе создания и обучения ИИ-моделей [0:00]. В этот период технология оставалась скорее технологической новинкой, нежели критически важным элементом реальных бизнес-процессов [0:14]. Однако с наступлением 2024 года ситуация резко изменилась: искусственный интеллект перешел в фазу активного промышленного использования, спровоцировав взрывной спрос на инференс (работу уже обученных моделей) [0:28].

Глава Cerebras сравнивает текущее состояние рынка инференса с эпохой модемного интернета dial-up [0:41]. Пользователи все еще регулярно сталкиваются с задержками и медленной генерацией ответов, метафорически наблюдая «крутящийся круг смерти» на экранах [0:53]. По его мнению, преодолеть эти ограничения с помощью стандартной архитектуры GPU невозможно. Для решения этой проблемы Cerebras разработала альтернативный подход — систему на основе компьютерной архитектуры потока данных (dataflow), реализованную на гигантских чипах размером с целую кремниевую пластину (wafer-scale chips) [0:53].

История развития технологий показывает, что рост скорости вычислений всегда открывает новые многомиллиардные рынки [11:59]. Руководитель Cerebras приводит историческую аналогию:

*   Когда интернет был медленным, компания Netflix рассылала физические DVD-диски в почтовых конвертах [12:13].
*   С появлением быстрого интернета возник многомиллиардный рынок потокового видео (стриминга) [12:25].
*   Сверхскоростной мобильный интернет превратил обычных пользователей (включая детей) в создателей медиаконтента, сделав медиасреду полностью двусторонней [12:39].

Аналогичный скачок, по прогнозам Cerebras, произойдет и в сфере инференса: мгновенный отклик моделей сделает возможным появление принципиально новых типов ИИ-приложений [12:52].

## ⚙️ Архитектура WSE против GPU: почему физика на стороне Cerebras
[[JUMP:1:05]]

Главное технологическое преимущество решений Cerebras кроется в их уникальной архитектуре. Традиционные графические процессоры (GPU) вынуждены перемещать данные из внешней памяти (HBM) в вычислительные ядра [2:00]. Скорость этого процесса физически ограничена свойствами проводников и расстоянием между чипами памяти и процессором [2:12]. 

В процессоре Cerebras Wafer Scale Engine (WSE) реализована архитектура «памяти рядом с вычислениями» (near-memory architecture) [1:05]. Ключевые особенности этой технологии:

*   Вся оперативная память является сверхбыстрой статической памятью (SRAM) и расположена непосредственно на гигантском чипе [1:05].
*   Каждое вычислительное ядро процессора имеет собственную выделенную память, расположенную в непосредственной близости [1:19].
*   Пропускная способность памяти чипа Cerebras WSE в 7000 раз превышает показатели лучших современных графических процессоров [1:34].

По словам главы Cerebras, такая конфигурация позволяет достигать скоростей, которые физически невозможны на GPU [1:47]. Пропускная способность памяти HBM, используемой в видеокартах Nvidia, имеет жесткий верхний предел, обусловленный длиной физических соединений [2:00]. Cerebras же работает за рамками этих ограничений. В ходе презентации компания объявила о достижении самой высокой в мире скорости инференса для моделей Llama 3.1 8B и Llama 3.1 70B [2:26]. Как отметил один из клиентов компании, «скорость и емкость меняют абсолютно всё» [2:41].

## ☁️ Свой облачный сервис и разрушение «рва CUDA»
[[JUMP:3:11]]

Чтобы обойти инерцию рынка и не ждать, пока крупные облачные провайдеры (hyperscalers) закупят и установят новые системы, Cerebras пошла по пути создания собственной облачной инфраструктуры [3:24]. На данный момент компания развернула облако с вычислительной мощностью масштаба экзафлопс [3:24]. 

Перенос существующих проектов на облачную платформу Cerebras, по утверждению разработчиков, занимает менее 30 секунд благодаря простому API и возможности интеграции через одну строчку кода [3:38]. За первые 10 дней работы сервиса на платформе зарегистрировались десятки тысяч разработчиков [3:52]. На рынке представлены три тарифных плана: бесплатная песочница (playground) для тестирования, оплата по факту использования за миллион токенов (pay-as-you-go) и выделенные серверные мощности для корпоративных клиентов [34:46].

Глава Cerebras считает, что доминирование проприетарной платформы CUDA от Nvidia как главного барьера для конкурентов сильно преувеличено [5:41]. В качестве доказательства он приводит следующую статистику скачиваний:

*   За 18 лет существования платформы CUDA от Nvidia ее скачали примерно 40 миллионов раз [5:54].
*   За последние 18 месяцев модели семейства Llama от Meta были скачаны более 350 миллионов раз [6:10].

Спикер подчеркивает, что 15 лет назад разработчикам приходилось программировать непосредственно под CUDA [6:25]. Затем индустрия перешла на более высокие уровни абстракции — TensorFlow и PyTorch [6:25]. Сегодня же разработчики приложений хотят взаимодействовать непосредственно с готовыми LLM через удобные API, не погружаясь в низкоуровневые языки вроде C++ [6:37]. Таким образом, базовым строительным блоком ИИ-приложений будущего становится сама языковая модель, а не низкоуровневый софт для GPU [7:06].

Снижению влияния традиционной «большой тройки» американских облачных гигантов (AWS, Microsoft Azure, Google Cloud) способствует также диверсификация рынка. Рост таких специализированных ИИ-облаков, как CoreWeave и Lambda, а также появление суверенных государственных облаков в разных странах мира открывают для Cerebras альтернативные каналы дистрибуции [5:14].

## 🤝 Крупные игроки и монополия Nvidia: позиция OpenAI
[[JUMP:7:19]]

В разговоре была затронута тема доминирования OpenAI на рынке коммерческих ИИ-сервисов и их привязки к оборудованию Nvidia [7:19]. По мнению главы Cerebras, OpenAI имеет сложную и масштабную зависимость от Microsoft Azure, которая изначально строилась исключительно на базе GPU от Nvidia [7:45]. 

Финансовые отчеты Nvidia показывают беспрецедентную концентрацию бизнеса: около половины всей выручки чипмейкера генерируют всего четыре крупнейших клиента [8:10]. Для технологического гиганта такого масштаба это колоссальный риск [8:10]. Сам Альтман, глава OpenAI, публично заявлял о необходимости диверсификации аппаратного обеспечения и поиске альтернативных решений [8:26]. 

Cerebras технически способна запускать на своих процессорах WSE любые крупные модели, включая GPT-4o или грядущую GPT-5 [9:13]. В данный момент компания не раскрывает детали пилотных проектов с OpenAI, однако обещает анонсировать пул крупных клиентов в ближайшие недели и месяцы [9:41].

Говоря о конкурентах, Эндрю Ын упомянул компанию SambaNova, которая также демонстрирует сильные результаты на бенчмарках инференса [9:54]. Глава Cerebras приветствует успехи коллег и прогнозирует, что на здоровом рынке аппаратного обеспечения для ИИ в конечном итоге останется пул из 3–5 ключевых игроков, среди которых Cerebras намерена занять лидирующие позиции [25:32].

## 🏭 Производство, геополитика и «закон о чипах» США
[[JUMP:26:11]]

Для удовлетворения растущего спроса Cerebras масштабирует производство. За последний год компания увеличила свои производственные мощности в 5 раз и планирует повторить этот рост в следующем году [26:26]. Хотя кремниевые пластины изготавливаются на фабриках TSMC в Тайване, Cerebras сама проектирует и собирает готовые вычислительные системы [26:39]. Руководитель компании подчеркнул правильность давнего решения продавать клиентам не отдельные PCI-платы, а готовые серверные шкафы-системы, так как это единственный способ раскрыть потенциал сверхкрупных чипов [26:54].

Обсуждая экспортные ограничения США на поставку ИИ-технологий в Китай [27:20], спикер признался, что не является экспертом в геополитике, но видит в текущей ситуации угрозу для всех участников рынка [28:29]. Он убежден, что в долгосрочной перспективе от жесткого разделения технологических рынков проигрывают обе сверхдержавы [29:49]. 

Китайская полупроводниковая промышленность сейчас отстает от передовых мировых технологий литографии примерно на 10 лет [28:29]. Однако, обладая огромными финансовыми ресурсами и пулом талантливых инженеров, Китай неизбежно создаст собственные установки для фотолитографии в глубоком ультрафиолете (EUV), что сделает его мощным независимым игроком в будущем [30:42].

Спикер также подверг критике долгосрочную промышленную политику США. Он считает, что американская политическая система и процесс бюджетного планирования плохо приспособлены для капиталоемких инвестиций с горизонтом планирования в десятилетия [31:50]. Принятый в США закон о чипах (CHIPS Act), предусматривающий выделение 40 миллиардов долларов поддержки, глава Cerebras назвал «крошечной суммой» в масштабах государства [32:59]:

> «40 миллиардов долларов кажутся огромным числом, но для национальной экономической политики это капля в море. Nvidia зарабатывает больше за один единственный квартал. Это хороший старт, но нам нужно мыслить гораздо масштабнее» [32:59].

Вспоминая историю ИТ-индустрии, глава Cerebras упомянул выдающегося инженера Джина Амдала (Jean Amdahl), который в свое время потерпел неудачу, пытаясь создать компьютер на основе цельной кремниевой пластины [33:39]. Cerebras стала первой компанией в 75-летней истории вычислительной техники, которой удалось успешно коммерциализировать эту технологию [33:39]. В качестве личной детали спикер вспомнил, что в детстве его соседом в Чаппакуа был Уильям Шокли, один из изобретателей транзистора [34:07]. Тогда дети не понимали величия ученого и любили его дом лишь за то, что его жена раздавала на Хэллоуин полноразмерные плитки шоколада [34:07].

## 🏢 От нефтяных гигантов до госструктур: клиенты Cerebras
[[JUMP:35:43]]

Системы Cerebras находят активное применение в государственном секторе и фундаментальной науке. Оборудование компании развернуто непосредственно на площадках (on-premise) крупнейших научных центров США и Европы [37:31]:

*   Консорциум Tri-Labs, объединяющий Ливерморскую национальную лабораторию им. Лоуренса, Сандийские национальные лаборатории и Лос-Аламосскую национальную лабораторию [36:39].
*   Аргоннская национальная лаборатория (проект суперкомпьютера Aurora) [36:51].
*   Окриджская национальная лаборатория (проект Frontier) [36:51].
*   Европейский центр параллельных вычислений (EPCC) [37:31].

На коммерческом рынке важной вехой стало подписание меморандума о взаимопонимании (MOU) с крупнейшей нефтяной компанией мира — Saudi Aramco [37:44]. Cerebras активно работает с Aramco и TotalEnergies над созданием специализированных моделей для геологоразведки, трехмерного моделирования нефтяных резервуаров и симуляции климатических процессов [37:58]. 

Интересно, что страны Персидского залива (в частности, ОАЭ и Саудовская Аравия), традиционно ассоциирующиеся с добычей ископаемого топлива, заняли лидерские позиции в инвестициях в «зеленую» энергетику и экологические проекты [39:22]. В этих регионах активно строятся экологически чистые дата-центры, работающие на солнечной энергии, которая также используется для опреснения воды [39:50].

## 🔄 Миф о нулевой сумме: почему инференс разгоняет обучение
[[JUMP:40:17]]

В завершение встречи собеседники опровергли популярное мнение о том, что рост сегмента инференса приведет к снижению объемов обучения новых моделей [40:17]. По словам главы Cerebras, на рынке ИИ нет игры с нулевой суммой [40:31]. Напротив, здесь действует «восходящая спираль»: чем больше конечные пользователи работают с ИИ-системами (инференс), тем больше новых данных генерируется [40:43]. Этот поток данных заставляет разработчиков создавать более точные и сложные модели, что требует кратного увеличения мощностей для их повторного обучения [40:57].

Хотя принято считать, что рынок обучения моделей полностью контролируется Nvidia, альтернативные аппаратные платформы также демонстрируют успехи [41:25]. В качестве примеров спикер привел использование тензорных процессоров Google TPU, вычисления компаний Anthropic и Stability AI на альтернативном железе, а также совместный проект Cerebras и компании G42 из ОАЭ по обучению Jais — ведущей арабской большой языковой модели, которая удерживает лидерство в своем сегменте уже около года [41:39]. Говорить о завершении конкурентной борьбы на рынке ИИ-железа пока слишком рано [42:23].