Дилан Патель: «Инференс ИИ станет рынком крупнее, чем добыча нефти»

Sequoia Capital 31,8 тыс. 1 ч 10 мин 5 мин 30.06.2026
Главное

В новом выпуске подкаста Sequoia Capital ведущие Шон Магуайр и Соня Хуанг беседуют с Диланом Пателем, основателем аналитической компании SemiAnalysis. В центре дискуссии — тектонические сдвиги в индустрии полупроводников, реальные причины доминирования Nvidia и новая парадигма развития искусственного интеллекта, где прогресс определяется не просто мощностью чипов, а их глубокой интеграцией с программным обеспечением.

🛠️ От ремонта Xbox до вершины аналитики: путь Дилана Пателя 1:58

История Дилана Пателя в мире технологий началась необычно: он вырос в семейном бизнесе, помогая родителям в мотеле и на заправке . Дилан в шутку называет своей «первой нейросетью» навык визуального профилирования покупателей сигарет: он научился по внешности определять марку, которую выберет клиент, чтобы заранее пододвинуть лестницу к нужной полке . Его интерес к «железу» пробудился в восемь лет, когда он самостоятельно починил консоль Xbox 360, столкнувшуюся с известным дефектом «красного кольца смерти» .

К 12 годам Патель уже активно модерировал форумы на Reddit, посвященные Android, Apple и компьютерному железу, внимательно отслеживая экономические показатели Intel, Nvidia и AMD . Позже, проработав два года квант-аналитиком в финансовой фирме, он решил сосредоточиться на своей страсти к полупроводникам.

Старт проекта SemiAnalysis совпал с чередой личных трудностей и пандемией. В 2020 году Патель фактически стал бездомным: он упаковал вещи в грузовик и в течение полугода путешествовал по национальным паркам США, живя в палатке и изучая учебники по архитектуре чипов и ИИ в перерывах между походами . Он посещал до 40 конференций в год по всему миру — от масштабных AI-мероприятий вроде NeurIPS до узкоспециализированных встреч химиков в Японии, чтобы по крупицам собрать понимание всей цепочки поставок . Сегодня SemiAnalysis считается одним из самых авторитетных источников в индустрии, а его выручка, по слухам, уже превысила $100 млн .

📊 InferenceX: живой бенчмарк для экономики токенов 14:04

Дилан Патель утверждает, что рынок инференса (использования готовых моделей) скоро превзойдет рынок нефти по масштабам и станет составлять заметную долю мирового ВВП . Чтобы понимать реальную стоимость ИИ, SemiAnalysis создали проект InferenceX.

Ключевые особенности InferenceX:

Центральным понятием в анализе инференса является «кривая Парето» между пропускной способностью (throughput) и интерактивностью (latency) . Патель объясняет, что выбор между скоростью ответа для пользователя и стоимостью обработки данных — это всегда компромисс. Оптимальные точки на этой кривой позволяют компаниям либо платить в 4 раза больше за мгновенный ответ, либо экономить, если задержка не критична (например, при обработке документов ночью) .

📐 Co-Design: почему 2x + 2x превращается в 100x 28:02

Главный тезис Дилана Пателя заключается в том, что эпоха «просто более быстрых чипов» прошла. Сейчас ключевым фактором стал Hardware-Software Co-Design (совместное проектирование железа и софта).

Патель приводит в пример китайскую модель DeepSeek V3: её архитектура («формы» экспертов в MoE-модели) была филигранно оптимизирована под чип Nvidia Hopper . Именно поэтому DeepSeek показывает феноменальную эффективность на картах Nvidia, но работает значительно хуже на чипах Google TPU, которые имеют иную внутреннюю логику матричного умножения .

По мнению Пателя, преимущество лучших лабораторий (OpenAI, Anthropic, Google) возникает, когда они оптимизируют сразу три уровня:

  1. Архитектуру модели (алгоритмы).
  2. Низкоуровневое ПО (ядра/kernels, управление памятью).
  3. Архитектуру самого кристалла .

Если оптимизировать каждый уровень по отдельности, можно получить прирост в 2 раза на каждом этапе (всего в 8 раз). Но при совместном проектировании этот эффект становится мультипликативным, достигая 100-кратного улучшения .

⚔️ Битва гигантов: Nvidia против TPU и загадка CUDA 33:54

Вопреки расхожему мнению, «ров» (moat) компании Nvidia вокруг платформы CUDA начинает менять свою форму. Патель считает, что современным лабораториям уже не так важна CUDA сама по себе, потому что модели ИИ (Claude или ChatGPT) теперь сами отлично пишут кастомные ядра для любых чипов .

Однако Nvidia удерживает лидерство за счет экосистемы:

Дилан отмечает интересную дивергенцию: модели OpenAI становятся всё более разреженными (sparse), что дает свои преимущества в скорости, в то время как Anthropic придерживается более плотных (dense) архитектур . Это заставляет их выбирать разные аппаратные стратегии.

🌐 Геополитика чипов: план Дженсена Хуанга 1:07:06

Патель делится инсайдом о стратегии главы Nvidia Дженсена Хуанга. По мнению аналитика, Хуанг осознает опасность мира, где несколько гиперскейлеров (Google, Amazon, Microsoft) контролируют всё облачное пространство и при этом строят свои собственные чипы (ASIC) .

Чтобы не допустить монополии покупателей, Дженсен Хуанг «наводит пушку аллокации» на так называемые NeoClouds (новые облачные провайдеры вроде Coreweave, Crusoe или Nebius) и NeoLabs . Он инвестирует в них и поставляет им дефицитные GPU в приоритетном порядке. Цель — создать многополярный мир, где у Nvidia будет множество независимых клиентов, что ослабит переговорную позицию технологических гигантов .

🚀 Прогнозы на 10 лет: космос и терраватты 44:20

Дискуссия коснулась и долгосрочных перспектив индустрии:

В завершение Дилан Патель выразил скепсис по отношению к критикам, заявляющим об отсутствии окупаемости (ROI) ИИ. Он утверждает, что прогресс моделей не замедляется, а полезность выполняемых ими задач растет быстрее, чем мир успевает наращивать вычислительные мощности, что и создает затяжной дефицит вычислений (compute crunch) .

💬 Цитаты

«Инференс ИИ станет одним из крупнейших рынков в мире, гораздо масштабнее рынка нефти.»

Дилан Патель 14:24

«Вы не можете просто отделить успехи в железе от успехов в софте — реальный прорыв происходит на их стыке.»

Дилан Патель 26:07

«Дженсен Хуанг ненавидит мир, где у гиперскейлеров вся власть. Он хочет создать многополярный мир.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Co-Design
Процесс одновременной оптимизации архитектуры процессора и алгоритмов программного обеспечения.
Inference (Инференс)
Процесс работы уже обученной нейросети при ответе на запросы пользователей.
NeoClouds
Облачные провайдеры нового поколения, специализирующиеся на GPU-вычислениях (например, Coreweave).
Sparse models
Разреженные модели, в которых при каждом запросе активируется только небольшая часть параметров.
📊 Цифры
🗓 Хронология
  1. 2020 Дилан Патель запускает SemiAnalysis и отправляется в полугодовое путешествие по США.
  2. 2023 SemiAnalysis публикует отчет «Amazon Cloud Crisis», критикующий сетевую архитектуру AWS для задач ИИ.
  3. 2026 Дата записи интервью; SemiAnalysis оперирует живым бенчмарком InferenceX.
  4. 2030 Прогноз Пателя: энергопотребление ИИ-лабораторий достигнет 100 ГВт.
⚖️ Другая сторона
Технологии и IT Dylan Patel SemiAnalysis Nvidia InferenceX DeepSeek