Cerebras против монополии Nvidia: как чип размером с тарелку меняет ИИ

Стремительный рост масштабов нейросетей обнажил физические ограничения современных графических ускорителей: вместо проектирования архитектур ИИ инженеры тратят месяцы на распределение вычислений по тысячам мелких чипов. В рамках подкаста Eye on AI руководитель отдела продуктов компании Cerebras Systems Энди Хок рассказал ведущему Крейгу Смиту о том, как гигантский процессор размером с цельную кремниевую пластину решает проблему коммуникационных барьеров. Новая архитектура обещает совершить революцию в обучении моделей-гигантов и изменить расстановку сил в глобальной гонке ИИ-вычислений.

🍽️ Процессор размером с обеденную тарелку: архитектура Wafer-Scale Engine 3:19

В основе систем компании Cerebras лежит революционная концепция: вместо нарезки кремниевой пластины на сотни мелких кристаллов (чипов) процессор создается размером во всю пластину . Текущее поколение этого гигантского процессора, получившее название Wafer-Scale Engine (WSE), содержит 850 000 специализированных ядер и 40 гигабайт сверхбыстрой встроенной памяти (SRAM), интегрированной непосредственно на кристалл .

Компания Cerebras Systems была основана в 2016 году с целью переосмыслить архитектуру ИИ-вычислений с чистого листа . Традиционные производители чипов вынуждены адаптировать существующие графические (GPU) или центральные (CPU) процессоры под нужды машинного обучения. Конструкторы Cerebras изначально проектировали систему под разреженную линейную алгебру тензорного типа, которая составляет основу современного глубокого обучения . На кристалле WSE нет вспомогательных блоков, предназначенных для трассировки лучей (ray tracing) или физического моделирования двойной точности (FP64) . Все ресурсы пластины направлены исключительно на ускорение умножения и накопления матриц (multiply-accumulate operations) .

Процесс производства этого процессора уникален:

Исходное сырье: круглая кремниевая пластина диаметром 300 мм, поставляемая фабрикой TSMC .
Метод литографии: экспонирование выполняется шаговым методом с использованием 84 идентичных фотошаблонов (ретикул) .
Техпроцесс: чип изготавливается по передовой технологии 7 нм .
Целостность структуры: после экспонирования пластина не разрезается на части, а вся разводка межъядерных коммуникаций остается на едином куске кремния .

По словам Энди Хока, такой подход позволяет объединить вычислительную мощность целого кластера на одном устройстве . Все 850 000 ядер соединены сверхбыстрой внутренней сетью в единую двумерную сетку (2D-mesh) с задержкой передачи данных всего в один такт .

⚙️ Преодолевая коммуникационный тупик: почему GPU-кластеры неэффективны 5:50

Когда современные модели ИИ (например, уровня GPT-4 или Claude) перестают помещаться в память одного GPU, разработчики сталкиваются с колоссальными трудностями . Распределение весов модели по тысячам отдельных плат требует сложного суперкомпьютерного инжиниринга.

По мнению Хока, ИИ-инженеры сегодня вынуждены тратить до половины своего рабочего времени не на исследования ИИ, а на преодоление барьеров параллельного программирования . Для распределения моделей используются специализированные библиотеки и фреймворки :

DeepSpeed
Megatron-LM
Распределенный PyTorch
Распределенный TensorFlow
Open MPI
Horovod

Для настройки такой системы требуются недели работы высококлассных программистов и написание тысяч строк шаблонного инфраструктурного кода . Более того, любое изменение архитектуры нейросети или размера кластера заставляет инженеров начинать оптимизацию распределения заново .

Главная фундаментальная проблема традиционных кластеров — неэффективность масштабирования. При увеличении числа GPU, например, до 512 штук, реальная скорость вычислений не возрастает в 512 раз . Узким местом становится пропускная способность памяти (memory bandwidth) и скорость передачи данных между физическими платами по интерфейсным кабелям .

Cerebras решает эту проблему за счет изменения парадигмы масштабирования. Поскольку даже модели на 10, 100 миллиардов или триллион параметров могут целиком умещаться в памяти одной системы, компании не требуется сложный модельный параллелизм (model/tensor parallelism) . Разработчик может запустить вычисления на кластере из машин Cerebras, используя только простое параллельное распределение по данным (data parallelism) . Это позволяет программировать систему из десятков ускорителей Cerebras с помощью точно такого же кода, который используется для обучения небольшой модели на локальном компьютере .

📊 152-кратное ускорение и демократизация вычислений 12:14

Разработчики ИИ часто оценивают чипы по теоретическому показателю терафлопс, однако Хок подчеркивает, что ключевой метрикой для бизнеса является реальное «время до получения решения» (time to solution) — то есть скорость обучения модели до целевой точности .

В качестве независимого подтверждения эффективности технологии Энди Хок приводит исследование Аргоннской национальной лаборатории (Argonne National Laboratory, Министерство энергетики США) . Ученые лаборатории сравнили систему Cerebras CS2 с ускорителем Nvidia A100 на реальных задачах обучения больших языковых моделей класса GPT.

Результаты бенчмарков показали:

Система Cerebras CS2 продемонстрировала 152-кратное превосходство в скорости обучения по сравнению с одиночной платой Nvidia A100 .
Один процессор WSE по своей вычислительной эффективности заменяет от нескольких десятков до сотен традиционных графических чипов .

Другим важным аспектом является утилизация вычислительных ресурсов (utilization rate). По словам Хока, лишь несколько ведущих лаборарий в мире за счет сложнейшей низкоуровневой оптимизации микрокода способны выжать из графических процессоров Nvidia 40–50% от их пиковой эффективности . Для обычных разработчиков этот показатель значительно ниже. Программный стек Cerebras автоматически оптимизирует компиляцию кода PyTorch , избавляя инженеров от ручной настройки ядер вычислений . Хок заявляет, что цель компании — демократизация высокопроизводительных ИИ-вычислений, чтобы передовые инструменты стали доступны исследователям без глубоких знаний суперкомпьютерной архитектуры .

🥶 Экстремальный инжиниринг: как запитать и охладить кремниевого монстра 24:58

Создание монолитного процессора Wafer-Scale Engine породило беспрецедентные вызовы в области системной инженерии. Для обеспечения жизнедеятельности такого кристалла инженерам Cerebras пришлось спроектировать систему охлаждения и питания с нуля .

В рабочем режиме WSE потребляет около 17–18 киловатт энергии при силе тока до 20 000 ампер . Чтобы отвести такой колоссальный объем тепла, система Cerebras CS2 (размером с небольшой бытовой холодильник и весом около 270 кг / 600 фунтов) почти полностью состоит из контуров охлаждения .

Охлаждение процессора реализовано по следующему принципу:

Прямой контакт: к тыльной стороне кремниевой пластины прижимается медная распределительная плата (cold plate) .
Микроканалы: на медной плате вытравлены микроскопические канавки, по которым циркулирует холодная вода . Это обеспечивает равномерную температуру по всей площади пластины .
Внутренний контур: насосы прокачивают нагретую воду в нижнюю часть корпуса к массивному теплообменнику .
Внешний интерфейс: теплообменник охлаждается либо воздухом дата-центра, либо внешней инфраструктурной водой (водяным контуром здания) .

Генеральный директор Cerebras Эндрю Фельдман часто шутит, что компания взяла надежную технологию автомобильных радиаторов 1920-х годов и внедрила ее в суперкомпьютер XXI века . Визуально изнутри система напоминает экстремально разогнанный игровой ПК с гигантской кастомной СЖО (системой жидкостного охлаждения) .

🎨 «Кремниевое искусство» и безотходное производство 32:32

Поскольку исходная кремниевая пластина круглая, а процессор WSE должен быть квадратным для удобства компоновки ядер, угловые сегменты пластины срезаются и отправляются в отход .

Ведущий Крейг Смит и Энди Хок в шутливой форме обсудили варианты коммерческого использования этих обрезков. По мнению Смита, из них можно было бы делать уникальные ювелирные украшения или арт-объекты . В офисе Cerebras уже висят крупноформатные фотографии микроскопических структур процессора, которые за счет сложнейших геометрических узоров из триллионов транзисторов напоминают футуристические планы мегаполисов . Спикер поддержал идею «кремниевого стартапа» по переработке остатков чипов в предметы искусства .

📦 Обход дефицита GPU и суперкомпьютер Condor Galaxy 1 34:08

Мировой дефицит ускорителей Nvidia серьезно тормозит развитие индустрии ИИ. Однако Cerebras находится в уникальном положении: производство гигантских пластин WSE идет по обособленной технологической линии на заводах TSMC, что снижает зависимость от общего кризиса поставок . По утверждению Хока, Cerebras способна поставить готовую систему клиенту в течение 90 дней с момента заказа, в то время как другие вендоры называют сроки ожидания от 6 до 12 месяцев .

Ярким доказательством масштабируемости технологии стало создание суперкомпьютера Condor Galaxy 1 (CG1) совместно с технологическим холдингом G42 из ОАЭ .

Характеристики Condor Galaxy 1:

Архитектура: кластер из 64 систем Cerebras CS2 .
Производительность: 4 эксафлопса разреженных вычислений (sparse AI compute) .
Скорость обучения: модели размером от 10 до 30 миллиардов параметров обучаются на этом кластере за считанные дни .
Сроки развертывания: весь суперкомпьютер был собран и запущен всего за 6 месяцев .

Хок заявляет, что с точки зрения TCO (совокупной стоимости владения) решения Cerebras превосходят традиционные GPU-кластеры . Отсутствие километров соединительных кабелей дает прямое преимущество в энергоэффективности, а высокая скорость разработки снижает операционные затраты .

🤝 Национальные вычислительные ресурсы и геополитика ИИ 57:53

Искусственный интеллект становится ключевым фактором национальной безопасности и экономического суверенитета стран. В связи с этим Cerebras ведет переговоры с правительствами различных государств о создании суверенных вычислительных мощностей .

В США компания активно сотрудничает с Национальным научным фондом (NSF) в рамках инициативы NAIRR (National AI Research Resource) — программы по созданию национального ИИ-консорциума, закрепленной указом президента . Также Cerebras работает с Министерством энергетики США (DoE), помогая проектировать суперкомпьютеры нового поколения для нужд науки и национальной безопасности .

В партнерстве с компанией G42 из ОАЭ на системах Cerebras уже созданы знаковые проекты:

Jais 13B / 30B: лучшие в мире двуязычные арабско-английские языковые модели .
Med-Llama (совместно с m42): первая в мире открытая медицинская нейросеть, успешно сдавшая экзамен на получение медицинской лицензии в США (USMLE) .

По словам Энди Хока, передовая ИИ-инфраструктура должна служить не только развлечению (например, алгоритмам рекомендаций видео с котиками на YouTube), но и решать глобальные вызовы: искать новые лекарства, прогнозировать пандемии и проектировать экологически чистые источники энергии .

💻 Будущее вычислений: гетерогенные дата-центры и открытые модели 52:21

Энди Хок прогнозирует, что архитектура дата-центров будущего неизбежно станет гетерогенной . Разные типы задач будут распределяться на специализированные ускорители:

Сверхкрупное обучение — на системы типа Cerebras WSE.
Плотные вычисления и физическое моделирование — на классические GPU и CPU.
Узкоспециализированный инференс — на энергоэффективные чипы на границе сети (edge devices) .

Крупные облачные провайдеры вроде Google (с их TPU) и Amazon (с чипами Trainium) уже создают собственные процессоры, подтверждая общую тенденцию ухода от универсального кремния .

Особое внимание Cerebras уделяет своей бизнес-модели, выгодно отличающейся от подходов закрытых ИИ-гигантов вроде OpenAI . Хок подчеркивает: клиенты, арендующие мощности в Cerebras Cloud (или у партнера Cirrascale), полностью контролируют свои данные . Самое главное — обученная модель передается заказчику целиком, включая все веса . Это позволяет компаниям развертывать инференс на собственных серверах, ноутбуках MacBook Pro или мобильных телефонах, не попадая в зависимость от API-лимитов сторонних платформ .

Для демонстрации возможностей локального инференса Cerebras выпустила модель BTM (BitTensor Language Model) на 3 миллиарда параметров, которая стала одной из самых популярных и эффективных легковесных моделей на платформе Hugging Face .

В заключение беседы Энди Хок выразил уверенность, что фундамент следующего технологического уклада закладывается именно сейчас — на уровне физической инфраструктуры кремния и систем охлаждения .