# Гвидо Аппенцеллер объяснил экономику дефицита GPU для ИИ-стартапов

Источник: https://www.youtube.com/watch?v=IPre5287P3I
Канал: a16z (Andreessen Horowitz)
Опубликовано: 25.08.2023

---

Бурный рост искусственного интеллекта спровоцировал беспрецедентный дефицит вычислительных мощностей, изменив правила игры для технологических стартапов. В этом материале специальный советник фонда a16z и бывший технический директор подразделения дата-центров Intel Гвидо Аппенцеллер анализирует разрыв между спросом и предложением на рынке GPU, объясняет стратегии выживания для основателей компаний и описывает контуры формирующегося нового технологического стека.

## 芯片危机： почему нельзя просто напечатать больше GPU
[[JUMP:03:03]]

По данным авторитетных источников, на которые ссылается Гвидо Аппенцеллер, текущий спрос на специализированное ИИ-оборудование превышает доступное на рынке предложение примерно в 10 раз. Этот колоссальный разрыв создает серьезные проблемы для портфельных компаний фонда a16z, пытающихся найти вычислительные мощности для запуска и масштабирования своих приложений. Картина дефицита складывается из целого ряда узких мест во всей цепочке поставок: от производства самих кремниевых кристаллов до сборки готовых серверных плат.

На первый взгляд, логичным решением со стороны лидеров рынка, таких как Nvidia или Intel, было бы кратное увеличение объемов выпуска. Однако, как объясняет Аппенцеллер, реальная ситуация намного сложнее. Проектированием чипов занимаются многие, но подавляющее большинство технологических компаний размещают заказы на мощностях сторонних фабрик, главным образом у Taiwan Semiconductor Manufacturing Company (TSMC). 

Возможности TSMC жестко ограничены, а производственные линии под конкретные техпроцессы бронируются задолго до начала выпуска. Быстро развернуть новые полупроводниковые заводы (фабы) невозможно по двум ключевым причинам:

* Строительство современного фаба занимает несколько лет.
* Объем капитальных вложений в один такой проект составляет от 2 до 10 миллиардов долларов.

Даже с учетом масштабных многомиллиардных государственных субсидий в разных странах, новые заводы потребуют значительного времени для выхода на проектную мощность, а уникальная экспертиза по-прежнему остается сконцентрированной у считанных единиц игроков.

## Стратегии выживания для фаундеров: борьба за аллокацию
[[JUMP:05:11]]

В условиях, когда вычислительные мощности превратились в дефицитный и дорогой ресурс, традиционные рыночные механизмы уступают место сложным сделкам. По словам Аппенцеллера, сегодня невозможно просто зайти на стандартную облачную платформу и арендовать инстансы под личные эксперименты на короткий срок — свободного оборудования часто просто нет в наличии. 

Чтобы получить доступ к новейшим чипам в промышленных масштабах, стартапам приходится идти на жесткие условия крупных облачных провайдеров. Приватные переговоры обычно включают требования о долгосрочных обязательствах. От фаундеров требуют подписания контрактов на эксклюзивное использование мощностей сроком минимум на два года с гарантированной оплатой всего периода. На рынке также распространена практика «инфраструктурных инвестиций», когда облачный гигант входит в капитал ИИ-стартапа, предоставляя свои вычислительные кластеры вместо денежных средств (как это происходило в ряде сделок OpenAI).

Для оптимизации затрат Аппенцеллер рекомендует основателям компаний в первую очередь ответить на вопрос: нужно ли им контролировать «железо» напрямую, или достаточно потреблять готовый сервис, развернутый поверх него. В качестве примера он приводит генерацию изображений через Stable Diffusion для мобильных приложений. Вместо аренды GPU стартап может интегрировать API специализированных SaaS-платформ, таких как Replicate, которые берут на себя управление всей инфраструктурой, масштабированием и поиском чипов.

Если же компании необходимо обучать или запускать собственную модель, эксперт советует тщательно изучить альтернативные предложения, подчеркивая, что «большая тройка» гиперскейлеров далеко не всегда является оптимальным выбором по цене. По его наблюдениям, ИИ-стартапы все чаще уходят к специализированным облачным провайдерам, таким как CoreWeave или Lambda Labs, которые изначально выстраивали инфраструктуру под задачи глубокого обучения.

Выбор конкретной конфигурации оборудования Аппенцеллер предлагает выстраивать в виде дерева решений, где ключевыми факторами выступают:

* Требуемый объем памяти видеокарты под конкретную модель.
* Тип задачи: инференс (исполнение) или полноценное обучение.
* Размер модели и плотность коммуникации между картами внутри одного сервера.
* Пропускная способность сетевой фабрики (fabric) между серверами, которая часто становится главным бутылочным горлышком при масштабировании обучения больших языковых моделей (LLM).

## Дилемма инфраструктуры: аренда против владения чипами
[[JUMP:09:05]]

Расходы на вычислительные мощности были ключевой статьей затрат для софтверных компаний еще до бума генеративного ИИ, но сегодня этот фактор стал определяющим для бизнес-моделей. Характер нагрузки диктует оптимальный формат владения мощностями.

При обучении моделей или наличии постоянного, критически важного для бизнеса потока инференса (когда задержки недопустимы, а приложение должно быть доступно в режиме 24/7) компании вынуждены идти на долгосрочное резервирование мощностей. Если же нагрузка носит пакетный характер (batch jobs), когда задачи могут подождать час или два, фаундеры могут использовать переменную (ad-hoc) емкость облаков, покупая ее по факту использования, пусть и по более высокой краткосрочной ставке.

Вопрос о переносе инфраструктуры из облака на собственное оборудование (on-premise) часто поднимается ИТ-директорами, стремившимися снизить маржинальное давление облачной аренды. Однако в эпоху ИИ Аппенцеллер скептически относится к идее владения «железом» для большинства компаний. По его мнению, создание собственного дата-центра сопряжено с огромными скрытыми издержками: необходимостью привлечения масштабного капитального (CAPEX) финансирования и найма высококлассных специалистов для обслуживания физических серверов.

Большинству основателей стартапов на ранних, средних и даже поздних стадиях эксперт рекомендует оставаться на арендованных облачных мощностях. Свои дата-центры, с точки зрения Аппенцеллера, оправданы лишь в трех исключительных случаях:

1.  Наличие экстремально специализированных требований к архитектуре оборудования, которых просто нет у коммерческих провайдеров.
2.  Жесткие геополитические ограничения или повышенная чувствительность данных, требующая полного физического контроля.
3.  Фактор масштаба затрат.

Говоря о масштабе, Аппенцеллер приводит конкретный финансовый ориентир: если компания тратит на ИИ-инфраструктуру порядка 10 миллионов долларов в год, она все еще находится ниже критической массы, когда собственные серверы имеют экономический смысл. Начинать расчеты и задумываться о строительстве собственного дата-центра имеет смысл только тогда, когда годовые расходы на облака приближаются к отметке в 100 миллионов долларов.

## Экономика моделей: потенциал open-source и законы масштабирования
[[JUMP:12:06]]

В условиях дороговизны вычислений возникает закономерный вопрос: смогут ли небольшие компании конкурировать с технологическими гигантами, обладающими неограниченными бюджетами? Одним из главных факторов защиты бизнеса (moat) часто называют доступ к уникальным, дифференцированным данным для обучения. Аппенцеллер соглашается с этим тезисом для специфических закрытых доменов (например, в сфере финансов), но делает важное уточнение для общих языковых моделей. 

Согласно его видению, увеличение масштаба LLM и объема обучающих данных дает не просто прирост фактологических знаний, а качественно меняет способности модели к логическому рассуждению (reasoning), абстрактному мышлению и решению комплексных многоэтапных задач. Поэтому в будущем разработчики продолжат собирать все доступные открытые данные для базовых моделей, а кастомизация под конкретный бизнес будет происходить через fine-tuning (дообучение) на приватных датасетах. Эксперт сравнивает это с жизненным циклом человека: сначала модель идет в «начальную школу», чтобы научиться читать и писать, а затем проходит «профессиональную подготовку» под конкретную узкую задачу.

Ярким примером эффективности такого подхода стала модель Vicuna, созданная исследователями путем fine-tuning открытой модели Llama 1 от Meta. Затраты непосредственно на процедуру дообучения Vicuna для следования инструкциям составили всего 300 долларов, однако результат оказался сопоставим по качеству ответов с гораздо более крупными проприетарными системами вроде ChatGPT и Google Bard.

Тем не менее Аппенцеллер подчеркивает, что при прочих равных условиях более крупные модели пока демонстрируют лучшие результаты на регулярных слепых тестированиях (bake-offs). Ситуацию на рынке открытого ПО меняют два важных тренда:

* **Применение законов масштабирования Chinchilla (Chinchilla scaling laws):** они описывают оптимальное соотношение объема данных и размера модели. Выяснилось, что если модель «переобучить» (overtrain), то есть скормить компактной сети значительно больше токенов, чем диктует стандартная эффективность, то можно получить небольшую модель, не уступающую по качеству тяжеловесным аналогам. Сейчас индустрия активно движется в сторону сжатия размеров моделей с одновременным увеличением плотности их тренировки.
* **Двухэтапная архитектура подготовки:** на первом этапе базовая модель обучается просто предсказывать следующий символ в тексте (text completion). На втором этапе применяется instruction fine-tuning — обучение модели правильному взаимодействию с человеком и выполнению команд (например, составлению пошагового рецепта пиццы). Открытые веса базовых моделей (таких как Llama) позволяют комьюнити за копейки превращать «сырой» текст в удобные чат-боты.

На рынке сохраняется колоссальный разрыв в масштабах между открытыми и коммерческими решениями. Выпущенные open-source модели Llama 2 (70 миллиардов параметров) и Falcon (40 миллиардов параметров) выглядят скромно на фоне закрытой GPT-3 (175 миллиардов параметров) и тем более GPT-4, чей объем оценивается в 1.8 триллиона параметров (вероятно, реализованных в виде смеси экспертов). Однако сухие цифры параметров не всегда отражают реальную силу: за счет качественного обучения на большем объеме данных 70-миллиардная Llama 2 демонстрирует производительность, превосходящую GPT-3, и вплотную приближается к коммерческой версии GPT-3.5.

## Локальный инференс и контуры нового вычислительного стека
[[JUMP:17:46]]

Параллельно с ростом облачных гигантов намечается тенденция к децентрализации инференса. Модели оптимизируются настолько быстро, что генеративные инструменты, такие как Stable Diffusion, уже способны работать локально на графических чипах обычных ноутбуков или даже смартфонов. Локальный запуск на телефоне может занимать около 10–20 секунд, что в ряде пользовательских сценариев вполне приемлемо.

Аппенцеллер прогнозирует неизбежную бифуркацию (раздвоение) рынка вычислительных мощностей по критерию качества и сложности задач. Базовые функции ИИ (например, продвинутая проверка орфографии в почтовом клиенте или автодополнение текста) станут частью локальных операционных систем и будут выполняться прямо на устройствах пользователей, не требуя от компаний затрат на оплату серверного времени. В то же время тяжелые аналитические задачи — написание развернутых речей, суммаризация огромных пакетов документов или сложные рассуждения — по-прежнему будут делегироваться в облако, поскольку требуют колоссального количества вычислительных операций.

Локальное исполнение дает стартапам колоссальное преимущество: генерация на GPU условного MacBook пользователя освобождает компанию от необходимости оплачивать эти серверные мощности, перекладывая расходы на батарею устройства клиента.

Резюмируя тектонические сдвиги в ИТ-индустрии, Гвидо Аппенцеллер призывает смотреть на искусственный интеллект не просто как на очередную прикладную надстройку, а как на фундаментально новый тип вычислений. Исторически индустрия создавала программное обеспечение «снизу вверх», выстраивая жесткие алгоритмы, логику которых человек понимал досконально. В эпоху нейросетей инженерам больше не нужно знать точный математический алгоритм решения конкретной задачи — достаточно правильно обучить сеть, чтобы она нашла решение самостоятельно.

Этот переход рождает, по выражению эксперта, «Кембрийский взрыв креативности» и требует полной перестройки привычного ИТ-стека. На рынке формируется совершенно новая экосистема инфраструктурных продуктов, открывающая огромные возможности для создания технологических компаний нового поколения: от специализированных векторных баз данных для извлечения контекста до хостинг-провайдеров нового типа, оптимизированных исключительно под предоставление моделей как услуги.