Дилан Патель: «Инференс ИИ станет рынком крупнее, чем добыча нефти»

В новом выпуске подкаста Sequoia Capital ведущие Шон Магуайр и Соня Хуанг беседуют с Диланом Пателем, основателем аналитической компании SemiAnalysis. В центре дискуссии — тектонические сдвиги в индустрии полупроводников, реальные причины доминирования Nvidia и новая парадигма развития искусственного интеллекта, где прогресс определяется не просто мощностью чипов, а их глубокой интеграцией с программным обеспечением.

🛠️ От ремонта Xbox до вершины аналитики: путь Дилана Пателя 1:58

История Дилана Пателя в мире технологий началась необычно: он вырос в семейном бизнесе, помогая родителям в мотеле и на заправке . Дилан в шутку называет своей «первой нейросетью» навык визуального профилирования покупателей сигарет: он научился по внешности определять марку, которую выберет клиент, чтобы заранее пододвинуть лестницу к нужной полке . Его интерес к «железу» пробудился в восемь лет, когда он самостоятельно починил консоль Xbox 360, столкнувшуюся с известным дефектом «красного кольца смерти» .

К 12 годам Патель уже активно модерировал форумы на Reddit, посвященные Android, Apple и компьютерному железу, внимательно отслеживая экономические показатели Intel, Nvidia и AMD . Позже, проработав два года квант-аналитиком в финансовой фирме, он решил сосредоточиться на своей страсти к полупроводникам.

Старт проекта SemiAnalysis совпал с чередой личных трудностей и пандемией. В 2020 году Патель фактически стал бездомным: он упаковал вещи в грузовик и в течение полугода путешествовал по национальным паркам США, живя в палатке и изучая учебники по архитектуре чипов и ИИ в перерывах между походами . Он посещал до 40 конференций в год по всему миру — от масштабных AI-мероприятий вроде NeurIPS до узкоспециализированных встреч химиков в Японии, чтобы по крупицам собрать понимание всей цепочки поставок . Сегодня SemiAnalysis считается одним из самых авторитетных источников в индустрии, а его выручка, по слухам, уже превысила $100 млн .

📊 InferenceX: живой бенчмарк для экономики токенов 14:04

Дилан Патель утверждает, что рынок инференса (использования готовых моделей) скоро превзойдет рынок нефти по масштабам и станет составлять заметную долю мирового ВВП . Чтобы понимать реальную стоимость ИИ, SemiAnalysis создали проект InferenceX.

Ключевые особенности InferenceX:

Масштаб: Для тестов используется оборудование стоимостью более $50 млн (с планами расширения до $100 млн), предоставленное такими гигантами, как Oracle, Microsoft, Amazon и Google .
Динамичность: В отличие от статичных тестов, этот бенчмарк обновляется ежедневно, тестируя новые модели (китайские DeepSeek, Moonshot, Alibaba и американские GPT, Claude) на 15 типах чипов .
Экономика: По данным Пателя, стоимость модели при сохранении того же уровня качества падает примерно в 60 раз за год .

Центральным понятием в анализе инференса является «кривая Парето» между пропускной способностью (throughput) и интерактивностью (latency) . Патель объясняет, что выбор между скоростью ответа для пользователя и стоимостью обработки данных — это всегда компромисс. Оптимальные точки на этой кривой позволяют компаниям либо платить в 4 раза больше за мгновенный ответ, либо экономить, если задержка не критична (например, при обработке документов ночью) .

📐 Co-Design: почему 2x + 2x превращается в 100x 28:02

Главный тезис Дилана Пателя заключается в том, что эпоха «просто более быстрых чипов» прошла. Сейчас ключевым фактором стал Hardware-Software Co-Design (совместное проектирование железа и софта).

Патель приводит в пример китайскую модель DeepSeek V3: её архитектура («формы» экспертов в MoE-модели) была филигранно оптимизирована под чип Nvidia Hopper . Именно поэтому DeepSeek показывает феноменальную эффективность на картах Nvidia, но работает значительно хуже на чипах Google TPU, которые имеют иную внутреннюю логику матричного умножения .

По мнению Пателя, преимущество лучших лабораторий (OpenAI, Anthropic, Google) возникает, когда они оптимизируют сразу три уровня:

Архитектуру модели (алгоритмы).
Низкоуровневое ПО (ядра/kernels, управление памятью).
Архитектуру самого кристалла .

Если оптимизировать каждый уровень по отдельности, можно получить прирост в 2 раза на каждом этапе (всего в 8 раз). Но при совместном проектировании этот эффект становится мультипликативным, достигая 100-кратного улучшения .

⚔️ Битва гигантов: Nvidia против TPU и загадка CUDA 33:54

Вопреки расхожему мнению, «ров» (moat) компании Nvidia вокруг платформы CUDA начинает менять свою форму. Патель считает, что современным лабораториям уже не так важна CUDA сама по себе, потому что модели ИИ (Claude или ChatGPT) теперь сами отлично пишут кастомные ядра для любых чипов .

Однако Nvidia удерживает лидерство за счет экосистемы:

Универсальность: Nvidia остается «мастером на все руки», в то время как чипы Google TPU или Amazon Trainium более специализированы под конкретные модели своих создателей .
Сетевая топология: Nvidia использует NVLink-коммутаторы, позволяя соединять 72 GPU в единый кластер, тогда как Google соединяет до 8000 чипов напрямую, что требует прохождения сигнала через соседние чипы .

Дилан отмечает интересную дивергенцию: модели OpenAI становятся всё более разреженными (sparse), что дает свои преимущества в скорости, в то время как Anthropic придерживается более плотных (dense) архитектур . Это заставляет их выбирать разные аппаратные стратегии.

🌐 Геополитика чипов: план Дженсена Хуанга 1:07:06

Патель делится инсайдом о стратегии главы Nvidia Дженсена Хуанга. По мнению аналитика, Хуанг осознает опасность мира, где несколько гиперскейлеров (Google, Amazon, Microsoft) контролируют всё облачное пространство и при этом строят свои собственные чипы (ASIC) .

Чтобы не допустить монополии покупателей, Дженсен Хуанг «наводит пушку аллокации» на так называемые NeoClouds (новые облачные провайдеры вроде Coreweave, Crusoe или Nebius) и NeoLabs . Он инвестирует в них и поставляет им дефицитные GPU в приоритетном порядке. Цель — создать многополярный мир, где у Nvidia будет множество независимых клиентов, что ослабит переговорную позицию технологических гигантов .

🚀 Прогнозы на 10 лет: космос и терраватты 44:20

Дискуссия коснулась и долгосрочных перспектив индустрии:

Космические дата-центры: Патель полагает, что к 2030 году в космосе будет находиться менее 1% вычислительных мощностей, но к 2040 году более половины прироста мощностей может уйти на орбиту из-за ограничений по энергии на Земле .
Энергопотребление: К 2030 году совокупная мощность инференс-систем только OpenAI и Anthropic может превысить 100 гигаватт, а к 2040 году речь пойдет о терраваттах .
Технологические прорывы: Ожидается переход к установке памяти (HBM) прямо поверх вычислительного чипа для взрывного роста пропускной способности, а также увеличение плотности мощности чипов выше стандартного 1 Вт на мм² .

В завершение Дилан Патель выразил скепсис по отношению к критикам, заявляющим об отсутствии окупаемости (ROI) ИИ. Он утверждает, что прогресс моделей не замедляется, а полезность выполняемых ими задач растет быстрее, чем мир успевает наращивать вычислительные мощности, что и создает затяжной дефицит вычислений (compute crunch) .