Глава Cerebras рассказал Эндрю Ыну о чипах WSE и рынке инференса

В новом выпуске подкаста Eye on AI ведущий Эндрю Ын (Andrew Ng) обсудил с главой компании Cerebras Systems фундаментальный сдвиг на рынке аппаратного обеспечения для искусственного интеллекта. Основное внимание в беседе было уделено переходу индустрии от этапа создания моделей к их масштабному практическому применению (инференсу), технологическому превосходству гигантских кремниевых пластин над традиционными графическими чипами и перспективам преодоления монополии Nvidia. Собеседники подробно разобрали архитектурные ограничения современных GPU, перспективы открытого программного обеспечения и геополитические вызовы, стоящие перед полупроводниковой отраслью.

⚡ Революция инференса: почему 2024 год изменил правила игры 0:00

По оценке руководителя Cerebras Systems, с 2014 по конец 2023 года индустрия находилась в фазе создания и обучения ИИ-моделей . В этот период технология оставалась скорее технологической новинкой, нежели критически важным элементом реальных бизнес-процессов . Однако с наступлением 2024 года ситуация резко изменилась: искусственный интеллект перешел в фазу активного промышленного использования, спровоцировав взрывной спрос на инференс (работу уже обученных моделей) .

Глава Cerebras сравнивает текущее состояние рынка инференса с эпохой модемного интернета dial-up . Пользователи все еще регулярно сталкиваются с задержками и медленной генерацией ответов, метафорически наблюдая «крутящийся круг смерти» на экранах . По его мнению, преодолеть эти ограничения с помощью стандартной архитектуры GPU невозможно. Для решения этой проблемы Cerebras разработала альтернативный подход — систему на основе компьютерной архитектуры потока данных (dataflow), реализованную на гигантских чипах размером с целую кремниевую пластину (wafer-scale chips) .

История развития технологий показывает, что рост скорости вычислений всегда открывает новые многомиллиардные рынки . Руководитель Cerebras приводит историческую аналогию:

Когда интернет был медленным, компания Netflix рассылала физические DVD-диски в почтовых конвертах .
С появлением быстрого интернета возник многомиллиардный рынок потокового видео (стриминга) .
Сверхскоростной мобильный интернет превратил обычных пользователей (включая детей) в создателей медиаконтента, сделав медиасреду полностью двусторонней .

Аналогичный скачок, по прогнозам Cerebras, произойдет и в сфере инференса: мгновенный отклик моделей сделает возможным появление принципиально новых типов ИИ-приложений .

⚙️ Архитектура WSE против GPU: почему физика на стороне Cerebras 1:05

Главное технологическое преимущество решений Cerebras кроется в их уникальной архитектуре. Традиционные графические процессоры (GPU) вынуждены перемещать данные из внешней памяти (HBM) в вычислительные ядра . Скорость этого процесса физически ограничена свойствами проводников и расстоянием между чипами памяти и процессором .

В процессоре Cerebras Wafer Scale Engine (WSE) реализована архитектура «памяти рядом с вычислениями» (near-memory architecture) . Ключевые особенности этой технологии:

Вся оперативная память является сверхбыстрой статической памятью (SRAM) и расположена непосредственно на гигантском чипе .
Каждое вычислительное ядро процессора имеет собственную выделенную память, расположенную в непосредственной близости .
Пропускная способность памяти чипа Cerebras WSE в 7000 раз превышает показатели лучших современных графических процессоров .

По словам главы Cerebras, такая конфигурация позволяет достигать скоростей, которые физически невозможны на GPU . Пропускная способность памяти HBM, используемой в видеокартах Nvidia, имеет жесткий верхний предел, обусловленный длиной физических соединений . Cerebras же работает за рамками этих ограничений. В ходе презентации компания объявила о достижении самой высокой в мире скорости инференса для моделей Llama 3.1 8B и Llama 3.1 70B . Как отметил один из клиентов компании, «скорость и емкость меняют абсолютно всё» .

☁️ Свой облачный сервис и разрушение «рва CUDA» 3:11

Чтобы обойти инерцию рынка и не ждать, пока крупные облачные провайдеры (hyperscalers) закупят и установят новые системы, Cerebras пошла по пути создания собственной облачной инфраструктуры . На данный момент компания развернула облако с вычислительной мощностью масштаба экзафлопс .

Перенос существующих проектов на облачную платформу Cerebras, по утверждению разработчиков, занимает менее 30 секунд благодаря простому API и возможности интеграции через одну строчку кода . За первые 10 дней работы сервиса на платформе зарегистрировались десятки тысяч разработчиков . На рынке представлены три тарифных плана: бесплатная песочница (playground) для тестирования, оплата по факту использования за миллион токенов (pay-as-you-go) и выделенные серверные мощности для корпоративных клиентов .

Глава Cerebras считает, что доминирование проприетарной платформы CUDA от Nvidia как главного барьера для конкурентов сильно преувеличено . В качестве доказательства он приводит следующую статистику скачиваний:

За 18 лет существования платформы CUDA от Nvidia ее скачали примерно 40 миллионов раз .
За последние 18 месяцев модели семейства Llama от Meta были скачаны более 350 миллионов раз .

Спикер подчеркивает, что 15 лет назад разработчикам приходилось программировать непосредственно под CUDA . Затем индустрия перешла на более высокие уровни абстракции — TensorFlow и PyTorch . Сегодня же разработчики приложений хотят взаимодействовать непосредственно с готовыми LLM через удобные API, не погружаясь в низкоуровневые языки вроде C++ . Таким образом, базовым строительным блоком ИИ-приложений будущего становится сама языковая модель, а не низкоуровневый софт для GPU .

Снижению влияния традиционной «большой тройки» американских облачных гигантов (AWS, Microsoft Azure, Google Cloud) способствует также диверсификация рынка. Рост таких специализированных ИИ-облаков, как CoreWeave и Lambda, а также появление суверенных государственных облаков в разных странах мира открывают для Cerebras альтернативные каналы дистрибуции .

🤝 Крупные игроки и монополия Nvidia: позиция OpenAI 7:19

В разговоре была затронута тема доминирования OpenAI на рынке коммерческих ИИ-сервисов и их привязки к оборудованию Nvidia . По мнению главы Cerebras, OpenAI имеет сложную и масштабную зависимость от Microsoft Azure, которая изначально строилась исключительно на базе GPU от Nvidia .

Финансовые отчеты Nvidia показывают беспрецедентную концентрацию бизнеса: около половины всей выручки чипмейкера генерируют всего четыре крупнейших клиента . Для технологического гиганта такого масштаба это колоссальный риск . Сам Альтман, глава OpenAI, публично заявлял о необходимости диверсификации аппаратного обеспечения и поиске альтернативных решений .

Cerebras технически способна запускать на своих процессорах WSE любые крупные модели, включая GPT-4o или грядущую GPT-5 . В данный момент компания не раскрывает детали пилотных проектов с OpenAI, однако обещает анонсировать пул крупных клиентов в ближайшие недели и месяцы .

Говоря о конкурентах, Эндрю Ын упомянул компанию SambaNova, которая также демонстрирует сильные результаты на бенчмарках инференса . Глава Cerebras приветствует успехи коллег и прогнозирует, что на здоровом рынке аппаратного обеспечения для ИИ в конечном итоге останется пул из 3–5 ключевых игроков, среди которых Cerebras намерена занять лидирующие позиции .

🏭 Производство, геополитика и «закон о чипах» США 26:11

Для удовлетворения растущего спроса Cerebras масштабирует производство. За последний год компания увеличила свои производственные мощности в 5 раз и планирует повторить этот рост в следующем году . Хотя кремниевые пластины изготавливаются на фабриках TSMC в Тайване, Cerebras сама проектирует и собирает готовые вычислительные системы . Руководитель компании подчеркнул правильность давнего решения продавать клиентам не отдельные PCI-платы, а готовые серверные шкафы-системы, так как это единственный способ раскрыть потенциал сверхкрупных чипов .

Обсуждая экспортные ограничения США на поставку ИИ-технологий в Китай , спикер признался, что не является экспертом в геополитике, но видит в текущей ситуации угрозу для всех участников рынка . Он убежден, что в долгосрочной перспективе от жесткого разделения технологических рынков проигрывают обе сверхдержавы .

Китайская полупроводниковая промышленность сейчас отстает от передовых мировых технологий литографии примерно на 10 лет . Однако, обладая огромными финансовыми ресурсами и пулом талантливых инженеров, Китай неизбежно создаст собственные установки для фотолитографии в глубоком ультрафиолете (EUV), что сделает его мощным независимым игроком в будущем .

Спикер также подверг критике долгосрочную промышленную политику США. Он считает, что американская политическая система и процесс бюджетного планирования плохо приспособлены для капиталоемких инвестиций с горизонтом планирования в десятилетия . Принятый в США закон о чипах (CHIPS Act), предусматривающий выделение 40 миллиардов долларов поддержки, глава Cerebras назвал «крошечной суммой» в масштабах государства :

«40 миллиардов долларов кажутся огромным числом, но для национальной экономической политики это капля в море. Nvidia зарабатывает больше за один единственный квартал. Это хороший старт, но нам нужно мыслить гораздо масштабнее» .

Вспоминая историю ИТ-индустрии, глава Cerebras упомянул выдающегося инженера Джина Амдала (Jean Amdahl), который в свое время потерпел неудачу, пытаясь создать компьютер на основе цельной кремниевой пластины . Cerebras стала первой компанией в 75-летней истории вычислительной техники, которой удалось успешно коммерциализировать эту технологию . В качестве личной детали спикер вспомнил, что в детстве его соседом в Чаппакуа был Уильям Шокли, один из изобретателей транзистора . Тогда дети не понимали величия ученого и любили его дом лишь за то, что его жена раздавала на Хэллоуин полноразмерные плитки шоколада .

🏢 От нефтяных гигантов до госструктур: клиенты Cerebras 35:43

Системы Cerebras находят активное применение в государственном секторе и фундаментальной науке. Оборудование компании развернуто непосредственно на площадках (on-premise) крупнейших научных центров США и Европы :

Консорциум Tri-Labs, объединяющий Ливерморскую национальную лабораторию им. Лоуренса, Сандийские национальные лаборатории и Лос-Аламосскую национальную лабораторию .
Аргоннская национальная лаборатория (проект суперкомпьютера Aurora) .
Окриджская национальная лаборатория (проект Frontier) .
Европейский центр параллельных вычислений (EPCC) .

На коммерческом рынке важной вехой стало подписание меморандума о взаимопонимании (MOU) с крупнейшей нефтяной компанией мира — Saudi Aramco . Cerebras активно работает с Aramco и TotalEnergies над созданием специализированных моделей для геологоразведки, трехмерного моделирования нефтяных резервуаров и симуляции климатических процессов .

Интересно, что страны Персидского залива (в частности, ОАЭ и Саудовская Аравия), традиционно ассоциирующиеся с добычей ископаемого топлива, заняли лидерские позиции в инвестициях в «зеленую» энергетику и экологические проекты . В этих регионах активно строятся экологически чистые дата-центры, работающие на солнечной энергии, которая также используется для опреснения воды .

🔄 Миф о нулевой сумме: почему инференс разгоняет обучение 40:17

В завершение встречи собеседники опровергли популярное мнение о том, что рост сегмента инференса приведет к снижению объемов обучения новых моделей . По словам главы Cerebras, на рынке ИИ нет игры с нулевой суммой . Напротив, здесь действует «восходящая спираль»: чем больше конечные пользователи работают с ИИ-системами (инференс), тем больше новых данных генерируется . Этот поток данных заставляет разработчиков создавать более точные и сложные модели, что требует кратного увеличения мощностей для их повторного обучения .

Хотя принято считать, что рынок обучения моделей полностью контролируется Nvidia, альтернативные аппаратные платформы также демонстрируют успехи . В качестве примеров спикер привел использование тензорных процессоров Google TPU, вычисления компаний Anthropic и Stability AI на альтернативном железе, а также совместный проект Cerebras и компании G42 из ОАЭ по обучению Jais — ведущей арабской большой языковой модели, которая удерживает лидерство в своем сегменте уже около года . Говорить о завершении конкурентной борьбы на рынке ИИ-железа пока слишком рано .