Алекс Ванг: «Данные, а не чипы, стали главным бутылочным горлышком ИИ»

Качественные данные, а не вычислительные мощности (compute), становятся главным узким горлом на пути к искусственному интеллекту нового поколения. В новом выпуске подкаста 20VC основатель и генеральный директор Scale AI Алекс Ванг обсуждает с ведущим Гарри Стеббингсом природу «информационной стены», геополитическую гонку с Китаем и извлеченные уроки построения миллиардного бизнеса. Текст предлагает детальный анализ технологических трендов, меняющих ландшафт ИИ-индустрии.

🧱 «Стена данных» и иллюзия бесконечного масштабирования мощностей 0:57

С момента релиза большой языковой модели GPT-4 от OpenAI осенью 2022 года индустрия не увидела сопоставимых по масштабу фундаментальных прорывов. Несмотря на то, что затраты на закупку высокотехнологичных чипов выросли экспоненциально — квартальная выручка дата-центров Nvidia взлетела с 5 миллиардов до более чем 20 миллиардов долларов, а совокупные инвестиции превысили 100 миллиардов долларов — новые базовые модели ИИ демонстрируют признаки замедления прогресса. По мнению Алекса Ванга, инвестиции в инфраструктуру растут по экспоненте, однако сообщество и индустрия все еще находятся в режиме ожидания следующей по-настоящему великой модели.

Развитие технологий ИИ исторически опирается на три ключевых столпа: вычислительные мощности (compute), алгоритмические инновации (такие как архитектура Transformer или метод обучения RLHF) и массивы данных. По словам Алекса Ванга, текущее плато в производительности объясняется тем, что индустрия уперлась в так называемую «стену данных». Разработчики радикально масштабировали один элемент уравнения — чипы, но проигнорировали необходимость параллельного качественного развития двух других составляющих.

🧠 Почему интернет-данные больше не приближают нас к AGI 4:14

До сих пор обучение моделей строилось на этапе pre-training — освоении «простых данных» из открытого интернета, включая социальные сети, не защищенные платным доступом сайты и торрент-трекеры. В результате современные системы научились виртуозно эмулировать интернет, превосходя в этом любого человека. Однако, как утверждает гость, для создания полноценного сильного искусственного интеллекта (AGI) и автономных агентов простой эмуляции сетевых текстов недостаточно.

Существующий массив интернет-данных не содержит в себе ключевого элемента — цепочек глубоких человеческих рассуждений, сопровождающих решение сложных задач. Алекс Ванг приводит в пример работу аналитика по борьбе с мошенничеством в крупном банке. Специалист изучает подозрительные транзакции, использует дедукцию и сопоставляет скрытые маркеры, но этот внутренний мыслительный процесс, на котором держится реальная экономика, никогда не публикуется в открытом доступе и не попадает в поисковые краулеры.

Чтобы преодолеть дефицит, индустрии необходим переход к концепции «передовых данных» (Frontier Data). Под этим термином подразумеваются:

Сложные многошаговые логические цепочки (reasoning chains).
Взаимодействие систем в агентских цепочках (agent chains).
Практическое использование внешних инструментов (tool use).
Процессы самостоятельного исправления ошибок моделями.

⛏️ Корпоративные недра и гибридное производство данных 7:58

Переход от дефицита данных к их изобилию возможен благодаря двум основным направлениям: развертыванию потенциала закрытых корпоративных хранилищ и форвардному производству новых датасетов. Объемы информации, заблокированной внутри традиционных предприятий, колоссальны. Например, объем проприетарных данных банка JPMorgan составляет 150 петабайт, в то время как модель GPT-4 обучалась на интернет-массиве объемом менее одного петабайта.

Поскольку крупные игроки не станут открывать доступ к своим конфиденциальным активам ради обучения публичных моделей, Алекс Ванг прогнозирует масштабный сдвиг в сторону on-premise решений. Компании будут разворачивать открытые или кастомизированные модели (такие как Llama от Meta или разработки Mistral) на собственной инфраструктуре. По словам гостя, это гарантирует, что их уникальные данные не будут использованы для обучения моделей конкурентов.

Параллельно создается инфраструктура форвардного производства данных на основе гибридного подхода (human-synthetic process). В этой схеме алгоритмы выполняют рутинную генерацию синтетических данных, а люди-эксперты выполняют роль «водителей безопасности» (по аналогии с тестированием беспилотных автомобилей). Они корректируют траекторию обучения моделей при потере фактологической точности или столкновении с незнакомыми сценариями. Алекс Ванг считает такую деятельность одной из самых высокопроизводительных профессий будущего, позволяющей ученым, математикам и врачам транслировать свои уникальные знания в системы с глобальным социальным эффектом.

📈 Конец традиционного софта и новые модели монетизации 24:43

В цепочке создания стоимости ИИ-индустрии точка фиксации маржинальности постоянно смещается. Алекс Ванг выражает уверенность в том, что сами по себе модели быстро коммерциализируются из-за жесткой конкуренции. Основной капитал будет аккумулироваться на уровнях ниже моделей — на рынке инфраструктуры и чипов (где лидирует Nvidia), а также выше моделей — на уровне сервисов и специализированных приложений. Простое добавление ИИ-функций в старые SaaS-продукты (вроде Notion AI или Box) не гарантирует компаниям долгосрочного роста капитализации и повышения цен.

В связи с этим Алекс Ванг разделяет провокационный тезис инвестора Криса Пайка о «конце программного обеспечения». Традиционный рынок софта сравнивается с медиаиндустрией до эпохи социальных сетей: на смену нескольким закрытым экосистемам и крупным SaaS-платформам приходит децентрализованная вселенная гибких, узкоспециализированных и полностью кастомизированных под нужды конкретного бизнеса ИТ-решений. Первопроходцем этого движения Ванг называет компанию Palantir, которая изначально строила бизнес на глубокой кастомизации под задачи клиента.

Технологическая трансформация неизбежно изменит структуру бизнеса:

Ценообразование: Традиционная модель оплаты за рабочее место (per-seat pricing) теряет экономический смысл, уступая место тарификации по объему потребления ресурсов (consumption-based pricing), так как основную работу начинают выполнять ИИ-агенты, а не люди.
Инженерия: Задачи разработчиков сместятся от написания стандартного кода к глубокому анализу клиентских болей и их переводу в понятные технические задания для ИИ-инженеров.

🇨🇳 Геополитический фронт: ИИ как абсолютное оружие и догоняющий Китай 32:55

Регуляторная политика западных стран в области защиты данных (включая жесткие нормы ЕС и медицинский стандарт HIPAA в США) часто сдерживает развитие ИИ, блокируя доступ к массивам информации. По мнению Алекса Ванга, либеральный доступ к данным полностью совместим с демократическими институтами. Государствам необходимо внедрять механизмы безопасной деанонимизации данных и стимулировать их отраслевое пулинг-объединение (например, сбор данных о безопасности в аэрокосмической сфере или мошенничестве в финансах).

Отсутствие гибкой политики со стороны Запада усиливает риски в геополитической гонке с Китаем. Вопреки расхожему мнению о критическом отставании КНР, китайская компания 01.AI создала модель Yi-Large, которая вплотную приблизилась к лидерам мировых рейтингов (GPT-4o, Gemini и Claude 3 Opus). Алекс Ванг предупреждает, что централизованная промышленная политика Коммунистической партии Китая позволяет жестко и эффективно мобилизовать ресурсы и координировать сбор данных, как это уже произошло на рынках солнечной энертекники и электромобилей.

Искусственный интеллект на этапе достижения AGI имеет потенциал стать самым мощным военным активом в истории человечества, превосходящим по степени влияния ядерное оружие. Если тоталитарные regimes Китая или России получат эксклюзивный доступ к технологиям такого уровня, они, по мнению Ванга, используют его для завоеваний. Из-за критических геополитических рисков Алекс Ванг выступает за сохранение закрытого исходного кода (closed-source) для самых передовых фронтирных моделей ИИ, допуская открытость лишь для менее мощных систем (уровня Llama 3). Растущая стоимость разработки, которая в ближайшие 10 лет может составить сотни миллиардов долларов, в конечном итоге сузит круг создателей моделей до нескольких технологических гигантов и суверенных государств.

🏢 Философия Scale AI: «Морские котики» против раздутых штатов и ловушки PR 44:45

В вопросах позиционирования бизнеса Алекс Ванг придерживается правила «лучший PR — это отсутствие PR». Традиционные медиа ориентированы на клики и действуют циклично, превознося компании на взлете и умышленно уничтожая их репутацию при малейших падениях. Scale AI столкнулась с этим эффектом в 2022 году на фоне коррекции технологического рынка, а также ранее, когда компанию критиковали за подписание контрактов с Министерства обороны США (DOD) в 2020 году. В современной медиасреде брендам необходимо развивать прямые каналы коммуникации с аудиторией (например, через независимые подкасты), опираясь на культ личности основателей.

Внутренняя кадровая политика Scale AI базируется на формировании элитных команд. Штат компании на сегодняшний день составляет около 800 человек. Ванг формулирует задачу как наем высококлассных «морских котиков» (Navy Seals), а не регулярного флота, что требует сохранения экстремально высокой планки требований. Основатель до сих пор лично верифицирует каждую кандидатуру и в 25–30% случаев идет вразрез с рекомендациями нанимающих менеджеров, блокируя офферы.

Главной управленческой ошибкой в истории Scale AI Ванг называет масштабное расширение штата в период 2020–2021 годов, когда команда выросла со 150 до более чем 700 сотрудников. Стремительный наем неизбежно размывает концентрацию талантов и снижает скорость решения критических проблем. Стабилизировав штат на уровне 800 человек, компания смогла кратно увеличить выручку. Алекс Ванг приводит в пример опыт Брайана Чески в Airbnb, который после пандемии радикально сократил команду ради повышения плотности талантов и операционной эффективности.

⚡ Блиц-опрос: Уроки беспилотников и будущее Scale AI 1:00:44

В ходе финальной серии коротких вопросов Алекс Ванг сформулировал ряд ключевых тезисов:

Главное заблуждение об ИИ: Мнение о том, что для создания AGI не хватает исключительно вычислительных мощностей. Без сопоставимого масштабирования объемов Frontier Data цель недостижима.
Желаемый член совета директоров: Главный исполнительный директор Microsoft Сатья Наделла, продемонстрировавший выдающуюся бизнес-стратегию в современную эпоху.
Эволюция взглядов: Опыт работы Scale AI с беспилотными автомобилями с 2016 года и генеративным ИИ с 2019 года показывает цикличность индустрии. Ванг предупреждает о риске масштабного «похмелья» в сфере GenAI, если текущие публичные обещания разработчиков окончательно оторвутся от суровых технических реалий, как это ранее произошло в секторе автономного вождения.
Будущее компании: Через 10 лет Scale AI планирует оставаться ключевой инфраструктурной «фабрикой данных» для ИИ, а в долгосрочной перспективе компания нацелена на проведение IPO.