Эндрю Фельдман: «Блокировка Cuda на рынке инференса — это миф»

Рынок чипов для искусственного интеллекта переживает переломный момент, в котором доминирование Nvidia сталкивается с технологическими вызовами со стороны новых специализированных архитектур. Сооснователь и генеральный директор Cerebras Systems Эндрю Фельдман в эфире подкаста 20VC обсуждает, почему традиционные графические процессоры (GPU) неэффективны для инференса, как гигантские процессоры на целой кремниевой пластине (wafer-scale) меняют правила игры и почему монополия Cuda — это временное явление.

🚀 У истоков Cerebras: видение 2015 года и просчеты в оценке рынка 0:52

В 2015 году Эндрю Фельдман и его сооснователи — Гэри, Шон, Джей-Пи и Майкл — спрогнозировали появление принципиально нового типа вычислительной нагрузки, связанного с развитием искусственного интеллекта . По мнению Фельдмана, для любого компьютерного архитектора появление новой задачи — это воплощение мечты, поскольку оно позволяет с нуля спроектировать специализированную систему, превосходящую универсальные решения .

При этом Фельдман признает, что, создавая Cerebras Systems (свой пятый по счету стартап), он впервые в карьере радикально недооценил будущий объем целевого рынка . Тем не менее основатели стартапа верно определили характер физического давления, которое ИИ-софт будет оказывать на аппаратное обеспечение: колоссальную нагрузку на пропускную способность памяти и коммуникационную структуру чипа .

💾 Архитектура Wafer-Scale: SRAM против HBM и решение проблемы брака 2:32

Любой полупроводниковый чип выполняет две основные задачи: производит вычисления и перемещает данные . В алгоритмах искусственного интеллекта математические расчеты тривиальны — по сути, это простое умножение матриц . Настоящая сложность кроется в транспортировке результатов и промежуточных данных между процессором и памятью, а также между отдельными графическими процессорами .

Графические процессоры (GPU) используют память типа HBM (High Bandwidth Memory), которая обладает высокой емкостью, но является относительно медленной . Альтернатива в виде памяти SRAM (Static Random-Access Memory) работает невероятно быстро, но имеет низкую емкость . Для решения этой дилеммы Cerebras Systems пошла по пути создания процессора размером с целую кремниевую пластину (wafer-scale) . Это позволило разместить гигантский объем SRAM прямо на кристалле, обеспечив колоссальную скорость без необходимости передавать данные за пределы чипа.

Исторически производство чипов на всю пластину считалось невозможным из-за проблемы выхода годных кристаллов (yield) . Процесс производства полупроводников Фельдман описывает с помощью аналогии:

Представьте, что кремниевая пластина — это раскатанное тесто, из которого формочкой вырезают печенья (чипы) .
Брак в кремнии — это как случайные конфеты M&Ms, брошенные на тесто с закрытыми глазами .
Чем больше размер печенья (чипа), тем выше вероятность, что в него попадет бракованный элемент . При обнаружении дефекта традиционный чип приходится выбрасывать.

Cerebras Systems решила эту проблему, создав архитектуру из сотен тысяч идентичных микроплиток (tiles) с избыточными резервными рядами и колонками . Если в процессе производства на плитке обнаруживается дефект, система просто изолирует ее на аппаратном уровне и задействует резервную . До Cerebras ни одна компания за 70-летнюю историю индустрии не могла успешно коммерциализировать технологию wafer-scale на процессорах — даже легендарный Джин Амдал со своей компанией Trilogy потерпел в этом неудачу .

⚡ Инференс против обучения: где миллисекунды решают всё 15:02

Эндрю Фельдман описывает экономику инференса (работы уже обученных моделей) через простую формулу:

$$\text{Объем рынка} = \text{Количество пользователей} \times \text{Частота запросов} \times \text{Объем вычислений на один запрос}$$

На текущем этапе развития индустрии все три компонента этой формулы растут экспоненциально . По оценке Фельдмана, к концу 2024 года ИИ превратился из забавной технологической новинки в повседневный рабочий инструмент для миллионов обычных людей, далеких от Кремниевой долины .

В интерактивном режиме работы ИИ (например, в поисковых системах вроде Perplexity) миллисекунды задержки имеют решающее значение для удержания внимания пользователя . Работа больших языковых моделей на инференсе требует колоссального перемещения данных: для генерации всего одного слова в модели класса Llama с 70 миллиардами параметров необходимо прогнать через вычислительные блоки 140 гигабайт весов . При использовании стандартных GPU для инференса моделей уровня DeepSeek-V3 или Llama 405B требуются тысячи чипов, объединенных в сложные инфраструктурные кластеры, что Фельдман называет «административным кошмаром» .

В вопросе стоимости инфраструктуры Фельдман ссылается на парадокс Джевонса: удешевление и ускорение вычислений никогда не уменьшает рынок, а наоборот, всегда приводит к росту его масштабов и появлению принципиально новых сценариев использования технологий . Точно так же, как появление широкополосного интернета превратило Netflix из сервиса почтовой рассылки DVD-дисков в стримингового гиганта и киностудию, сверхбыстрый инференс изменит привычные методы работы с информацией .

📉 Алгоритмическая неэффективность и конец эпохи трансформеров 25:04

По утверждению Эндрю Фельдмана, современные алгоритмы ИИ крайне неэффективны: при инференсе на традиционных GPU полезная утилизация чипа составляет всего 5–7%, в то время как остальные 93–95% вычислительной мощности фактически тратятся впустую . Это оставляет колоссальное пространство для оптимизации софта и архитектурных улучшений .

Фельдман выделяет несколько ключевых технологических трендов:

Отказ от полносвязных структур: В современных нейросетях на многих слоях каждый элемент связан с каждым, что требует избыточных математических операций . Внедрение разреженности (sparsity) и методов динамического отключения нейронов (dropout) позволит выполнять вычисления только на действительно важных участках сети.
Синтетические данные: Фельдман прогнозирует, что через 5 лет обучение моделей будет практически полностью строиться на синтетических данных . Он сравнивает это с подготовкой пилотов на авиасимуляторах: нет смысла собирать миллионы гигабайт данных о том, как самолет летит по прямой в ясную погоду. Симуляторы и синтетические генераторы нужны для создания редких, критических сценариев — например, посадки с отказавшим двигателем или левого поворота беспилотного автомобиля в сильный снегопад .
Закат архитектуры трансформеров: Фельдман убежден, что через 3–5 лет зависимость индустрии от трансформеров сойдет на нет . Из-за квадратичного роста сложности механизма внимания (attention head) трансформеры имеют фундаментальные ограничения, которые заставят разработчиков перейти на более эффективные архитектуры (например, State Space Models) .

🇨🇳 Феномен DeepSeek и геополитическое противостояние 35:00

Успех китайской модели DeepSeek Фельдман называет триумфом сфокусированной инженерной работы . По его мнению, создатели модели не пытались позиционировать себя как «академических интеллектуалов», а просто создали инженерный продукт, который работает лучше и эффективнее аналогов при значительно меньшем объеме аппаратных ресурсов . Дистилляцию моделей Фельдман считает абсолютно легитимной практикой .

В то же время Фельдман заявляет, что западное сообщество фундаментально недооценивает технологический потенциал Китая . Китай обладает колоссальными инвестициями в инфраструктуру, высочайшими темпами подготовки инженерных кадров и способностью авторитарного правительства беспрепятственно реализовывать масштабные национальные стратегии . Историческим примером дальновидной промышленной политики Китая Фельдман называет создание специальных экономических зон, таких как Шэньчжэнь .

Несмотря на упущенную выгоду, Cerebras Systems принципиально отказалась от поставок оборудования в Китай . Фельдман объясняет это внутренним моральным ориентиром компании, который он называет «тестом на гордость матери»:

«Вам не нужен огромный свод правил, чтобы принимать правильные решения в бизнесе. Просто спросите себя: гордилась бы моя мама, если бы я сделал это? Гордилась бы она, если бы я в деталях объяснил ей всю ситуацию?»

Фельдман выразил уверенность в том, что поставляемые чипы использовались бы китайской стороной не во благо: например, для систем распознавания лиц с целью преследования меньшинств или для создания передового вооружения .

⚔️ Битва с Nvidia: миф о блокировке Cuda и преимущество лидера 42:02

Эндрю Фельдман утверждает, что популярный тезис о непреодолимости экосистемы Cuda как главного конкурентного преимущества Nvidia на рынке инференса является мифом . Любой разработчик может перенести рабочую нагрузку с графических процессоров Nvidia на аппаратные решения Cerebras или облачные сервисы за несколько нажатий клавиш, поскольку большая часть современного ИИ-софта пишется на фреймворке PyTorch .

Тем не менее доминирующее положение Nvidia на рынке само по себе является мощным барьером для входа конкурентов . В качестве аналогии Фельдман приводит корпорацию Intel: даже после десятилетия ошибочных управленческих решений они продолжают удерживать около 75–80% рынка процессоров архитектуры x86 просто за счет статуса стандартного выбора по умолчанию .

Согласно прогнозу Фельдмана, в течение ближайших пяти лет доля Nvidia на рынке ИИ-оборудования неизбежно снизится с текущих почти 100% до более реалистичных 50–60% . В условиях стократного роста рынка освободившаяся ниша позволит вырасти нескольким новым крупным полупроводниковым корпорациям.

💼 Бизнес Cerebras: контракт с G42, путь к IPO и уроки серийного предпринимательства 48:30

Cerebras Systems демонстрирует положительный денежный поток (cash flow positive), что выделяет компанию на фоне конкурентов, «сжигающих» венчурный капитал . Важнейшим драйвером бизнеса Cerebras является стратегическое партнерство с холдингом G42 из ОАЭ. На долю этого контракта приходится 87% всей выручки стартапа, а объем сделки оценивается более чем в $1 млрд . Фельдман признает, что такая концентрация выручки несет в себе риски, но одновременно называет это ценнейшим опытом, который позволил Cerebras развить «инфраструктурные мышцы» для работы с крупнейшими облачными провайдерами и суверенными фондами .

Комментируя подготовку Cerebras к выходу на IPO, Фельдман отмечает, что публичный статус необходим компании для ведения бизнеса с консервативными американскими корпорациями . Крупные клиенты в США исторически отдают явное предпочтение публичным поставщикам оборудования из соображений прозрачности и стабильности.

Будучи серийным предпринимателем на своем пятом стартапе, Фельдман убежден в колоссальной ценности опыта руководства . В отличие от потребительского софта, где основатели студенческого возраста могут преуспеть за счет понимания своей аудитории, глубокие технологические сферы (deep tech) требуют жестких навыков управления цепочками поставок, сложного производства и координации работы сотен высококлассных инженеров .

В завершение Фельдман поделился поучительной историей о собственной ошибке: в 2016 году главный системный архитектор Cerebras Джей-Пи предложил внедрить жидкостное охлаждение для серверов компании . Фельдман долгое время активно сопротивлялся этой идее, считая ее избыточной. В итоге инженер оказался прав: сегодня все передовые ИИ-кластеры, включая новейшие разработки Nvidia, используют исключительно водяное охлаждение .