Эндрю Фельдман: «Блокировка Cuda на рынке инференса — это миф»

20VC (Harry Stebbings) 14,8 тыс. 1 ч 14 мин 7 мин 24.03.2025
Главное

Рынок чипов для искусственного интеллекта переживает переломный момент, в котором доминирование Nvidia сталкивается с технологическими вызовами со стороны новых специализированных архитектур. Сооснователь и генеральный директор Cerebras Systems Эндрю Фельдман в эфире подкаста 20VC обсуждает, почему традиционные графические процессоры (GPU) неэффективны для инференса, как гигантские процессоры на целой кремниевой пластине (wafer-scale) меняют правила игры и почему монополия Cuda — это временное явление.

🚀 У истоков Cerebras: видение 2015 года и просчеты в оценке рынка 0:52

В 2015 году Эндрю Фельдман и его сооснователи — Гэри, Шон, Джей-Пи и Майкл — спрогнозировали появление принципиально нового типа вычислительной нагрузки, связанного с развитием искусственного интеллекта . По мнению Фельдмана, для любого компьютерного архитектора появление новой задачи — это воплощение мечты, поскольку оно позволяет с нуля спроектировать специализированную систему, превосходящую универсальные решения .

При этом Фельдман признает, что, создавая Cerebras Systems (свой пятый по счету стартап), он впервые в карьере радикально недооценил будущий объем целевого рынка . Тем не менее основатели стартапа верно определили характер физического давления, которое ИИ-софт будет оказывать на аппаратное обеспечение: колоссальную нагрузку на пропускную способность памяти и коммуникационную структуру чипа .

💾 Архитектура Wafer-Scale: SRAM против HBM и решение проблемы брака 2:32

Любой полупроводниковый чип выполняет две основные задачи: производит вычисления и перемещает данные . В алгоритмах искусственного интеллекта математические расчеты тривиальны — по сути, это простое умножение матриц . Настоящая сложность кроется в транспортировке результатов и промежуточных данных между процессором и памятью, а также между отдельными графическими процессорами .

Графические процессоры (GPU) используют память типа HBM (High Bandwidth Memory), которая обладает высокой емкостью, но является относительно медленной . Альтернатива в виде памяти SRAM (Static Random-Access Memory) работает невероятно быстро, но имеет низкую емкость . Для решения этой дилеммы Cerebras Systems пошла по пути создания процессора размером с целую кремниевую пластину (wafer-scale) . Это позволило разместить гигантский объем SRAM прямо на кристалле, обеспечив колоссальную скорость без необходимости передавать данные за пределы чипа.

Исторически производство чипов на всю пластину считалось невозможным из-за проблемы выхода годных кристаллов (yield) . Процесс производства полупроводников Фельдман описывает с помощью аналогии:

Cerebras Systems решила эту проблему, создав архитектуру из сотен тысяч идентичных микроплиток (tiles) с избыточными резервными рядами и колонками . Если в процессе производства на плитке обнаруживается дефект, система просто изолирует ее на аппаратном уровне и задействует резервную . До Cerebras ни одна компания за 70-летнюю историю индустрии не могла успешно коммерциализировать технологию wafer-scale на процессорах — даже легендарный Джин Амдал со своей компанией Trilogy потерпел в этом неудачу .

⚡ Инференс против обучения: где миллисекунды решают всё 15:02

Эндрю Фельдман описывает экономику инференса (работы уже обученных моделей) через простую формулу:

$$\text{Объем рынка} = \text{Количество пользователей} \times \text{Частота запросов} \times \text{Объем вычислений на один запрос}$$

На текущем этапе развития индустрии все три компонента этой формулы растут экспоненциально . По оценке Фельдмана, к концу 2024 года ИИ превратился из забавной технологической новинки в повседневный рабочий инструмент для миллионов обычных людей, далеких от Кремниевой долины .

В интерактивном режиме работы ИИ (например, в поисковых системах вроде Perplexity) миллисекунды задержки имеют решающее значение для удержания внимания пользователя . Работа больших языковых моделей на инференсе требует колоссального перемещения данных: для генерации всего одного слова в модели класса Llama с 70 миллиардами параметров необходимо прогнать через вычислительные блоки 140 гигабайт весов . При использовании стандартных GPU для инференса моделей уровня DeepSeek-V3 или Llama 405B требуются тысячи чипов, объединенных в сложные инфраструктурные кластеры, что Фельдман называет «административным кошмаром» .

В вопросе стоимости инфраструктуры Фельдман ссылается на парадокс Джевонса: удешевление и ускорение вычислений никогда не уменьшает рынок, а наоборот, всегда приводит к росту его масштабов и появлению принципиально новых сценариев использования технологий . Точно так же, как появление широкополосного интернета превратило Netflix из сервиса почтовой рассылки DVD-дисков в стримингового гиганта и киностудию, сверхбыстрый инференс изменит привычные методы работы с информацией .

📉 Алгоритмическая неэффективность и конец эпохи трансформеров 25:04

По утверждению Эндрю Фельдмана, современные алгоритмы ИИ крайне неэффективны: при инференсе на традиционных GPU полезная утилизация чипа составляет всего 5–7%, в то время как остальные 93–95% вычислительной мощности фактически тратятся впустую . Это оставляет колоссальное пространство для оптимизации софта и архитектурных улучшений .

Фельдман выделяет несколько ключевых технологических трендов:

🇨🇳 Феномен DeepSeek и геополитическое противостояние 35:00

Успех китайской модели DeepSeek Фельдман называет триумфом сфокусированной инженерной работы . По его мнению, создатели модели не пытались позиционировать себя как «академических интеллектуалов», а просто создали инженерный продукт, который работает лучше и эффективнее аналогов при значительно меньшем объеме аппаратных ресурсов . Дистилляцию моделей Фельдман считает абсолютно легитимной практикой .

В то же время Фельдман заявляет, что западное сообщество фундаментально недооценивает технологический потенциал Китая . Китай обладает колоссальными инвестициями в инфраструктуру, высочайшими темпами подготовки инженерных кадров и способностью авторитарного правительства беспрепятственно реализовывать масштабные национальные стратегии . Историческим примером дальновидной промышленной политики Китая Фельдман называет создание специальных экономических зон, таких как Шэньчжэнь .

Несмотря на упущенную выгоду, Cerebras Systems принципиально отказалась от поставок оборудования в Китай . Фельдман объясняет это внутренним моральным ориентиром компании, который он называет «тестом на гордость матери»:

«Вам не нужен огромный свод правил, чтобы принимать правильные решения в бизнесе. Просто спросите себя: гордилась бы моя мама, если бы я сделал это? Гордилась бы она, если бы я в деталях объяснил ей всю ситуацию?»

Фельдман выразил уверенность в том, что поставляемые чипы использовались бы китайской стороной не во благо: например, для систем распознавания лиц с целью преследования меньшинств или для создания передового вооружения .

⚔️ Битва с Nvidia: миф о блокировке Cuda и преимущество лидера 42:02

Эндрю Фельдман утверждает, что популярный тезис о непреодолимости экосистемы Cuda как главного конкурентного преимущества Nvidia на рынке инференса является мифом . Любой разработчик может перенести рабочую нагрузку с графических процессоров Nvidia на аппаратные решения Cerebras или облачные сервисы за несколько нажатий клавиш, поскольку большая часть современного ИИ-софта пишется на фреймворке PyTorch .

Тем не менее доминирующее положение Nvidia на рынке само по себе является мощным барьером для входа конкурентов . В качестве аналогии Фельдман приводит корпорацию Intel: даже после десятилетия ошибочных управленческих решений они продолжают удерживать около 75–80% рынка процессоров архитектуры x86 просто за счет статуса стандартного выбора по умолчанию .

Согласно прогнозу Фельдмана, в течение ближайших пяти лет доля Nvidia на рынке ИИ-оборудования неизбежно снизится с текущих почти 100% до более реалистичных 50–60% . В условиях стократного роста рынка освободившаяся ниша позволит вырасти нескольким новым крупным полупроводниковым корпорациям.

💼 Бизнес Cerebras: контракт с G42, путь к IPO и уроки серийного предпринимательства 48:30

Cerebras Systems демонстрирует положительный денежный поток (cash flow positive), что выделяет компанию на фоне конкурентов, «сжигающих» венчурный капитал . Важнейшим драйвером бизнеса Cerebras является стратегическое партнерство с холдингом G42 из ОАЭ. На долю этого контракта приходится 87% всей выручки стартапа, а объем сделки оценивается более чем в $1 млрд . Фельдман признает, что такая концентрация выручки несет в себе риски, но одновременно называет это ценнейшим опытом, который позволил Cerebras развить «инфраструктурные мышцы» для работы с крупнейшими облачными провайдерами и суверенными фондами .

Комментируя подготовку Cerebras к выходу на IPO, Фельдман отмечает, что публичный статус необходим компании для ведения бизнеса с консервативными американскими корпорациями . Крупные клиенты в США исторически отдают явное предпочтение публичным поставщикам оборудования из соображений прозрачности и стабильности.

Будучи серийным предпринимателем на своем пятом стартапе, Фельдман убежден в колоссальной ценности опыта руководства . В отличие от потребительского софта, где основатели студенческого возраста могут преуспеть за счет понимания своей аудитории, глубокие технологические сферы (deep tech) требуют жестких навыков управления цепочками поставок, сложного производства и координации работы сотен высококлассных инженеров .

В завершение Фельдман поделился поучительной историей о собственной ошибке: в 2016 году главный системный архитектор Cerebras Джей-Пи предложил внедрить жидкостное охлаждение для серверов компании . Фельдман долгое время активно сопротивлялся этой идее, считая ее избыточной. В итоге инженер оказался прав: сегодня все передовые ИИ-кластеры, включая новейшие разработки Nvidia, используют исключительно водяное охлаждение .

💬 Цитаты

«Вам не нужен огромный свод правил, чтобы принимать правильные решения в бизнесе. Просто спросите себя: гордилась бы моя мама, если бы я сделал это?»

Эндрю Фельдман 1:00:16

«Тезис о блокировке Cuda на рынке инференса не соответствует действительности. Вы можете сменить аппаратную платформу буквально за 10 нажатий клавиш.»

Эндрю Фельдман 42:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс
Процесс использования уже обученной нейросети для получения ответов на новые пользовательские запросы.
Wafer-scale
Подход в микроэлектронике, при котором весь кремниевый диск (пластина) используется как один гигантский чип.
SRAM
Сверхбыстрая статическая оперативная память, размещаемая непосредственно на кристалле процессора.
HBM
Высокоскоростная многослойная память, используемая в современных GPU, уступающая по скорости SRAM.
📊 Цифры
🗓 Хронология
  1. 2015 Основание компании Cerebras Systems Эндрю Фельдманом и его партнерами.
  2. 2016 Внутренний спор в Cerebras о внедрении жидкостного охлаждения систем.
  3. 2024 Подача Cerebras заявки S-1 на проведение процедуры публичного IPO.
⚖️ Другая сторона
Стартапы и бизнес Cerebras Systems Эндрю Фельдман инференс полупроводники