# Эндрю Фельдман: «Блокировка Cuda на рынке инференса — это миф»

Источник: https://www.youtube.com/watch?v=MW9vwF7TUI8
Канал: 20VC (Harry Stebbings)
Опубликовано: 24.03.2025

---

Рынок чипов для искусственного интеллекта переживает переломный момент, в котором доминирование Nvidia сталкивается с технологическими вызовами со стороны новых специализированных архитектур. Сооснователь и генеральный директор Cerebras Systems Эндрю Фельдман в эфире подкаста 20VC обсуждает, почему традиционные графические процессоры (GPU) неэффективны для инференса, как гигантские процессоры на целой кремниевой пластине (wafer-scale) меняют правила игры и почему монополия Cuda — это временное явление.

## 🚀 У истоков Cerebras: видение 2015 года и просчеты в оценке рынка
[[JUMP:00:52]]

В 2015 году Эндрю Фельдман и его сооснователи — Гэри, Шон, Джей-Пи и Майкл — спрогнозировали появление принципиально нового типа вычислительной нагрузки, связанного с развитием искусственного интеллекта [1:06]. По мнению Фельдмана, для любого компьютерного архитектора появление новой задачи — это воплощение мечты, поскольку оно позволяет с нуля спроектировать специализированную систему, превосходящую универсальные решения [1:20].

При этом Фельдман признает, что, создавая Cerebras Systems (свой пятый по счету стартап), он впервые в карьере радикально недооценил будущий объем целевого рынка [2:01]. Тем не менее основатели стартапа верно определили характер физического давления, которое ИИ-софт будет оказывать на аппаратное обеспечение: колоссальную нагрузку на пропускную способность памяти и коммуникационную структуру чипа [2:17].

## 💾 Архитектура Wafer-Scale: SRAM против HBM и решение проблемы брака
[[JUMP:02:32]]

Любой полупроводниковый чип выполняет две основные задачи: производит вычисления и перемещает данные [2:46]. В алгоритмах искусственного интеллекта математические расчеты тривиальны — по сути, это простое умножение матриц [3:26]. Настоящая сложность кроется в транспортировке результатов и промежуточных данных между процессором и памятью, а также между отдельными графическими процессорами [3:40].

Графические процессоры (GPU) используют память типа HBM (High Bandwidth Memory), которая обладает высокой емкостью, но является относительно медленной [6:22]. Альтернатива в виде памяти SRAM (Static Random-Access Memory) работает невероятно быстро, но имеет низкую емкость [6:48]. Для решения этой дилеммы Cerebras Systems пошла по пути создания процессора размером с целую кремниевую пластину (wafer-scale) [7:02]. Это позволило разместить гигантский объем SRAM прямо на кристалле, обеспечив колоссальную скорость без необходимости передавать данные за пределы чипа.

Исторически производство чипов на всю пластину считалось невозможным из-за проблемы выхода годных кристаллов (yield) [11:11]. Процесс производства полупроводников Фельдман описывает с помощью аналогии:

*   Представьте, что кремниевая пластина — это раскатанное тесто, из которого формочкой вырезают печенья (чипы) [11:43].
*   Брак в кремнии — это как случайные конфеты M&Ms, брошенные на тесто с закрытыми глазами [12:24].
*   Чем больше размер печенья (чипа), тем выше вероятность, что в него попадет бракованный элемент [12:36]. При обнаружении дефекта традиционный чип приходится выбрасывать.

Cerebras Systems решила эту проблему, создав архитектуру из сотен тысяч идентичных микроплиток (tiles) с избыточными резервными рядами и колонками [13:26]. Если в процессе производства на плитке обнаруживается дефект, система просто изолирует ее на аппаратном уровне и задействует резервную [14:04]. До Cerebras ни одна компания за 70-летнюю историю индустрии не могла успешно коммерциализировать технологию wafer-scale на процессорах — даже легендарный Джин Амдал со своей компанией Trilogy потерпел в этом неудачу [14:29].

## ⚡ Инференс против обучения: где миллисекунды решают всё
[[JUMP:15:02]]

Эндрю Фельдман описывает экономику инференса (работы уже обученных моделей) через простую формулу:

$$\text{Объем рынка} = \text{Количество пользователей} \times \text{Частота запросов} \times \text{Объем вычислений на один запрос}$$

На текущем этапе развития индустрии все три компонента этой формулы растут экспоненциально [18:21]. По оценке Фельдмана, к концу 2024 года ИИ превратился из забавной технологической новинки в повседневный рабочий инструмент для миллионов обычных людей, далеких от Кремниевой долины [19:57].

В интерактивном режиме работы ИИ (например, в поисковых системах вроде Perplexity) миллисекунды задержки имеют решающее значение для удержания внимания пользователя [16:01]. Работа больших языковых моделей на инференсе требует колоссального перемещения данных: для генерации всего одного слова в модели класса Llama с 70 миллиардами параметров необходимо прогнать через вычислительные блоки 140 гигабайт весов [5:40]. При использовании стандартных GPU для инференса моделей уровня DeepSeek-V3 или Llama 405B требуются тысячи чипов, объединенных в сложные инфраструктурные кластеры, что Фельдман называет «административным кошмаром» [7:27].

В вопросе стоимости инфраструктуры Фельдман ссылается на парадокс Джевонса: удешевление и ускорение вычислений никогда не уменьшает рынок, а наоборот, всегда приводит к росту его масштабов и появлению принципиально новых сценариев использования технологий [33:12]. Точно так же, как появление широкополосного интернета превратило Netflix из сервиса почтовой рассылки DVD-дисков в стримингового гиганта и киностудию, сверхбыстрый инференс изменит привычные методы работы с информацией [17:25].

## 📉 Алгоритмическая неэффективность и конец эпохи трансформеров
[[JUMP:25:04]]

По утверждению Эндрю Фельдмана, современные алгоритмы ИИ крайне неэффективны: при инференсе на традиционных GPU полезная утилизация чипа составляет всего 5–7%, в то время как остальные 93–95% вычислительной мощности фактически тратятся впустую [25:29]. Это оставляет колоссальное пространство для оптимизации софта и архитектурных улучшений [26:40].

Фельдман выделяет несколько ключевых технологических трендов:

*   **Отказ от полносвязных структур:** В современных нейросетях на многих слоях каждый элемент связан с каждым, что требует избыточных математических операций [28:14]. Внедрение разреженности (sparsity) и методов динамического отключения нейронов (dropout) позволит выполнять вычисления только на действительно важных участках сети.
*   **Синтетические данные:** Фельдман прогнозирует, что через 5 лет обучение моделей будет практически полностью строиться на синтетических данных [30:12]. Он сравнивает это с подготовкой пилотов на авиасимуляторах: нет смысла собирать миллионы гигабайт данных о том, как самолет летит по прямой в ясную погоду. Симуляторы и синтетические генераторы нужны для создания редких, критических сценариев — например, посадки с отказавшим двигателем или левого поворота беспилотного автомобиля в сильный снегопад [30:39].
*   **Закат архитектуры трансформеров:** Фельдман убежден, что через 3–5 лет зависимость индустрии от трансформеров сойдет на нет [34:06]. Из-за квадратичного роста сложности механизма внимания (attention head) трансформеры имеют фундаментальные ограничения, которые заставят разработчиков перейти на более эффективные архитектуры (например, State Space Models) [34:32].

## 🇨🇳 Феномен DeepSeek и геополитическое противостояние
[[JUMP:35:00]]

Успех китайской модели DeepSeek Фельдман называет триумфом сфокусированной инженерной работы [35:26]. По его мнению, создатели модели не пытались позиционировать себя как «академических интеллектуалов», а просто создали инженерный продукт, который работает лучше и эффективнее аналогов при значительно меньшем объеме аппаратных ресурсов [35:40]. Дистилляцию моделей Фельдман считает абсолютно легитимной практикой [36:22].

В то же время Фельдман заявляет, что западное сообщество фундаментально недооценивает технологический потенциал Китая [1:01:36]. Китай обладает колоссальными инвестициями в инфраструктуру, высочайшими темпами подготовки инженерных кадров и способностью авторитарного правительства беспрепятственно реализовывать масштабные национальные стратегии [1:01:48]. Историческим примером дальновидной промышленной политики Китая Фельдман называет создание специальных экономических зон, таких как Шэньчжэнь [1:02:52].

Несмотря на упущенную выгоду, Cerebras Systems принципиально отказалась от поставок оборудования в Китай [59:50]. Фельдман объясняет это внутренним моральным ориентиром компании, который он называет «тестом на гордость матери»:

> «Вам не нужен огромный свод правил, чтобы принимать правильные решения в бизнесе. Просто спросите себя: гордилась бы моя мама, если бы я сделал это? Гордилась бы она, если бы я в деталях объяснил ей всю ситуацию?» [1:00:16]

Фельдман выразил уверенность в том, что поставляемые чипы использовались бы китайской стороной не во благо: например, для систем распознавания лиц с целью преследования меньшинств или для создания передового вооружения [1:01:08].

## ⚔️ Битва с Nvidia: миф о блокировке Cuda и преимущество лидера
[[JUMP:42:02]]

Эндрю Фельдман утверждает, что популярный тезис о непреодолимости экосистемы Cuda как главного конкурентного преимущества Nvidia на рынке инференса является мифом [42:14]. Любой разработчик может перенести рабочую нагрузку с графических процессоров Nvidia на аппаратные решения Cerebras или облачные сервисы за несколько нажатий клавиш, поскольку большая часть современного ИИ-софта пишется на фреймворке PyTorch [42:30].

Тем не менее доминирующее положение Nvidia на рынке само по себе является мощным барьером для входа конкурентов [43:25]. В качестве аналогии Фельдман приводит корпорацию Intel: даже после десятилетия ошибочных управленческих решений они продолжают удерживать около 75–80% рынка процессоров архитектуры x86 просто за счет статуса стандартного выбора по умолчанию [44:05].

Согласно прогнозу Фельдмана, в течение ближайших пяти лет доля Nvidia на рынке ИИ-оборудования неизбежно снизится с текущих почти 100% до более реалистичных 50–60% [45:51]. В условиях стократного роста рынка освободившаяся ниша позволит вырасти нескольким новым крупным полупроводниковым корпорациям.

## 💼 Бизнес Cerebras: контракт с G42, путь к IPO и уроки серийного предпринимательства
[[JUMP:48:30]]

Cerebras Systems демонстрирует положительный денежный поток (cash flow positive), что выделяет компанию на фоне конкурентов, «сжигающих» венчурный капитал [48:30]. Важнейшим драйвером бизнеса Cerebras является стратегическое партнерство с холдингом G42 из ОАЭ. На долю этого контракта приходится **87% всей выручки стартапа**, а объем сделки оценивается **более чем в $1 млрд** [53:06]. Фельдман признает, что такая концентрация выручки несет в себе риски, но одновременно называет это ценнейшим опытом, который позволил Cerebras развить «инфраструктурные мышцы» для работы с крупнейшими облачными провайдерами и суверенными фондами [49:36].

Комментируя подготовку Cerebras к выходу на IPO, Фельдман отмечает, что публичный статус необходим компании для ведения бизнеса с консервативными американскими корпорациями [52:41]. Крупные клиенты в США исторически отдают явное предпочтение публичным поставщикам оборудования из соображений прозрачности и стабильности.

Будучи серийным предпринимателем на своем пятом стартапе, Фельдман убежден в колоссальной ценности опыта руководства [1:09:11]. В отличие от потребительского софта, где основатели студенческого возраста могут преуспеть за счет понимания своей аудитории, глубокие технологические сферы (deep tech) требуют жестких навыков управления цепочками поставок, сложного производства и координации работы сотен высококлассных инженеров [1:10:32].

В завершение Фельдман поделился поучительной историей о собственной ошибке: в 2016 году главный системный архитектор Cerebras Джей-Пи предложил внедрить жидкостное охлаждение для серверов компании [1:07:39]. Фельдман долгое время активно сопротивлялся этой идее, считая ее избыточной. В итоге инженер оказался прав: сегодня все передовые ИИ-кластеры, включая новейшие разработки Nvidia, используют исключительно водяное охлаждение [1:08:05].