Алекс Ванг: «Данные, а не чипы, стали главным бутылочным горлышком ИИ»

20VC (Harry Stebbings) 44,5 тыс. 1 ч 6 мин 7 мин 12.06.2024
Главное

Качественные данные, а не вычислительные мощности (compute), становятся главным узким горлом на пути к искусственному интеллекту нового поколения. В новом выпуске подкаста 20VC основатель и генеральный директор Scale AI Алекс Ванг обсуждает с ведущим Гарри Стеббингсом природу «информационной стены», геополитическую гонку с Китаем и извлеченные уроки построения миллиардного бизнеса. Текст предлагает детальный анализ технологических трендов, меняющих ландшафт ИИ-индустрии.

🧱 «Стена данных» и иллюзия бесконечного масштабирования мощностей 0:57

С момента релиза большой языковой модели GPT-4 от OpenAI осенью 2022 года индустрия не увидела сопоставимых по масштабу фундаментальных прорывов. Несмотря на то, что затраты на закупку высокотехнологичных чипов выросли экспоненциально — квартальная выручка дата-центров Nvidia взлетела с 5 миллиардов до более чем 20 миллиардов долларов, а совокупные инвестиции превысили 100 миллиардов долларов — новые базовые модели ИИ демонстрируют признаки замедления прогресса. По мнению Алекса Ванга, инвестиции в инфраструктуру растут по экспоненте, однако сообщество и индустрия все еще находятся в режиме ожидания следующей по-настоящему великой модели.

Развитие технологий ИИ исторически опирается на три ключевых столпа: вычислительные мощности (compute), алгоритмические инновации (такие как архитектура Transformer или метод обучения RLHF) и массивы данных. По словам Алекса Ванга, текущее плато в производительности объясняется тем, что индустрия уперлась в так называемую «стену данных». Разработчики радикально масштабировали один элемент уравнения — чипы, но проигнорировали необходимость параллельного качественного развития двух других составляющих.

🧠 Почему интернет-данные больше не приближают нас к AGI 4:14

До сих пор обучение моделей строилось на этапе pre-training — освоении «простых данных» из открытого интернета, включая социальные сети, не защищенные платным доступом сайты и торрент-трекеры. В результате современные системы научились виртуозно эмулировать интернет, превосходя в этом любого человека. Однако, как утверждает гость, для создания полноценного сильного искусственного интеллекта (AGI) и автономных агентов простой эмуляции сетевых текстов недостаточно.

Существующий массив интернет-данных не содержит в себе ключевого элемента — цепочек глубоких человеческих рассуждений, сопровождающих решение сложных задач. Алекс Ванг приводит в пример работу аналитика по борьбе с мошенничеством в крупном банке. Специалист изучает подозрительные транзакции, использует дедукцию и сопоставляет скрытые маркеры, но этот внутренний мыслительный процесс, на котором держится реальная экономика, никогда не публикуется в открытом доступе и не попадает в поисковые краулеры.

Чтобы преодолеть дефицит, индустрии необходим переход к концепции «передовых данных» (Frontier Data). Под этим термином подразумеваются:

⛏️ Корпоративные недра и гибридное производство данных 7:58

Переход от дефицита данных к их изобилию возможен благодаря двум основным направлениям: развертыванию потенциала закрытых корпоративных хранилищ и форвардному производству новых датасетов. Объемы информации, заблокированной внутри традиционных предприятий, колоссальны. Например, объем проприетарных данных банка JPMorgan составляет 150 петабайт, в то время как модель GPT-4 обучалась на интернет-массиве объемом менее одного петабайта.

Поскольку крупные игроки не станут открывать доступ к своим конфиденциальным активам ради обучения публичных моделей, Алекс Ванг прогнозирует масштабный сдвиг в сторону on-premise решений. Компании будут разворачивать открытые или кастомизированные модели (такие как Llama от Meta или разработки Mistral) на собственной инфраструктуре. По словам гостя, это гарантирует, что их уникальные данные не будут использованы для обучения моделей конкурентов.

Параллельно создается инфраструктура форвардного производства данных на основе гибридного подхода (human-synthetic process). В этой схеме алгоритмы выполняют рутинную генерацию синтетических данных, а люди-эксперты выполняют роль «водителей безопасности» (по аналогии с тестированием беспилотных автомобилей). Они корректируют траекторию обучения моделей при потере фактологической точности или столкновении с незнакомыми сценариями. Алекс Ванг считает такую деятельность одной из самых высокопроизводительных профессий будущего, позволяющей ученым, математикам и врачам транслировать свои уникальные знания в системы с глобальным социальным эффектом.

📈 Конец традиционного софта и новые модели монетизации 24:43

В цепочке создания стоимости ИИ-индустрии точка фиксации маржинальности постоянно смещается. Алекс Ванг выражает уверенность в том, что сами по себе модели быстро коммерциализируются из-за жесткой конкуренции. Основной капитал будет аккумулироваться на уровнях ниже моделей — на рынке инфраструктуры и чипов (где лидирует Nvidia), а также выше моделей — на уровне сервисов и специализированных приложений. Простое добавление ИИ-функций в старые SaaS-продукты (вроде Notion AI или Box) не гарантирует компаниям долгосрочного роста капитализации и повышения цен.

В связи с этим Алекс Ванг разделяет провокационный тезис инвестора Криса Пайка о «конце программного обеспечения». Традиционный рынок софта сравнивается с медиаиндустрией до эпохи социальных сетей: на смену нескольким закрытым экосистемам и крупным SaaS-платформам приходит децентрализованная вселенная гибких, узкоспециализированных и полностью кастомизированных под нужды конкретного бизнеса ИТ-решений. Первопроходцем этого движения Ванг называет компанию Palantir, которая изначально строила бизнес на глубокой кастомизации под задачи клиента.

Технологическая трансформация неизбежно изменит структуру бизнеса:

🇨🇳 Геополитический фронт: ИИ как абсолютное оружие и догоняющий Китай 32:55

Регуляторная политика западных стран в области защиты данных (включая жесткие нормы ЕС и медицинский стандарт HIPAA в США) часто сдерживает развитие ИИ, блокируя доступ к массивам информации. По мнению Алекса Ванга, либеральный доступ к данным полностью совместим с демократическими институтами. Государствам необходимо внедрять механизмы безопасной деанонимизации данных и стимулировать их отраслевое пулинг-объединение (например, сбор данных о безопасности в аэрокосмической сфере или мошенничестве в финансах).

Отсутствие гибкой политики со стороны Запада усиливает риски в геополитической гонке с Китаем. Вопреки расхожему мнению о критическом отставании КНР, китайская компания 01.AI создала модель Yi-Large, которая вплотную приблизилась к лидерам мировых рейтингов (GPT-4o, Gemini и Claude 3 Opus). Алекс Ванг предупреждает, что централизованная промышленная политика Коммунистической партии Китая позволяет жестко и эффективно мобилизовать ресурсы и координировать сбор данных, как это уже произошло на рынках солнечной энертекники и электромобилей.

Искусственный интеллект на этапе достижения AGI имеет потенциал стать самым мощным военным активом в истории человечества, превосходящим по степени влияния ядерное оружие. Если тоталитарные regimes Китая или России получат эксклюзивный доступ к технологиям такого уровня, они, по мнению Ванга, используют его для завоеваний. Из-за критических геополитических рисков Алекс Ванг выступает за сохранение закрытого исходного кода (closed-source) для самых передовых фронтирных моделей ИИ, допуская открытость лишь для менее мощных систем (уровня Llama 3). Растущая стоимость разработки, которая в ближайшие 10 лет может составить сотни миллиардов долларов, в конечном итоге сузит круг создателей моделей до нескольких технологических гигантов и суверенных государств.

🏢 Философия Scale AI: «Морские котики» против раздутых штатов и ловушки PR 44:45

В вопросах позиционирования бизнеса Алекс Ванг придерживается правила «лучший PR — это отсутствие PR». Традиционные медиа ориентированы на клики и действуют циклично, превознося компании на взлете и умышленно уничтожая их репутацию при малейших падениях. Scale AI столкнулась с этим эффектом в 2022 году на фоне коррекции технологического рынка, а также ранее, когда компанию критиковали за подписание контрактов с Министерства обороны США (DOD) в 2020 году. В современной медиасреде брендам необходимо развивать прямые каналы коммуникации с аудиторией (например, через независимые подкасты), опираясь на культ личности основателей.

Внутренняя кадровая политика Scale AI базируется на формировании элитных команд. Штат компании на сегодняшний день составляет около 800 человек. Ванг формулирует задачу как наем высококлассных «морских котиков» (Navy Seals), а не регулярного флота, что требует сохранения экстремально высокой планки требований. Основатель до сих пор лично верифицирует каждую кандидатуру и в 25–30% случаев идет вразрез с рекомендациями нанимающих менеджеров, блокируя офферы.

Главной управленческой ошибкой в истории Scale AI Ванг называет масштабное расширение штата в период 2020–2021 годов, когда команда выросла со 150 до более чем 700 сотрудников. Стремительный наем неизбежно размывает концентрацию талантов и снижает скорость решения критических проблем. Стабилизировав штат на уровне 800 человек, компания смогла кратно увеличить выручку. Алекс Ванг приводит в пример опыт Брайана Чески в Airbnb, который после пандемии радикально сократил команду ради повышения плотности талантов и операционной эффективности.

⚡ Блиц-опрос: Уроки беспилотников и будущее Scale AI 1:00:44

В ходе финальной серии коротких вопросов Алекс Ванг сформулировал ряд ключевых тезисов:

💬 Цитаты

«Данные — один из немногих элементов, где можно создать устойчивое долгосрочное конкурентное преимущество.»

Алекс Ванг 19:56

«В будущем руководители будут хвастаться не количеством графических процессоров, а тем, к каким данным они имеют доступ.»

Алекс Ванг 21:40

«Искусственный интеллект имеет потенциал стать одним из величайших военных активов в истории человечества, возможно, даже более важным, чем ядерное оружие.»

Алекс Ванг 40:03
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Compute
Вычислительные мощности, преимущественно графические процессоры (GPU), используемые для обучения нейросетей.
Frontier Data
Передовые данные, включающие сложные логические цепочки и сценарии взаимодействия агентов, необходимые для обучения ИИ нового поколения.
AGI
Общий или сильный искусственный интеллект, способный выполнять любые интеллектуальные задачи на уровне человека.
Pre-training
Этап предварительного обучения ИИ-моделей на огромных массивах неразмеченного контента из открытых источников.
On-premise
Развертывание программного обеспечения и моделей на собственных серверах организации, а не в облаке стороннего провайдера.
📊 Цифры
🗓 Хронология
  1. 2016 Основание компании Scale AI и концентрация первых трех лет работы на технологиях автономного вождения.
  2. 2019 Scale AI получает статус единорога и начинает сотрудничество с OpenAI по обучению модели GPT-2.
  3. 2020 Начало долгосрочного сотрудничества компании Scale AI с Министерством обороны США (DOD).
  4. Конец 2022 года Команда Scale AI увеличивается до 700+ человек; происходит падение ИТ-рынка и смена риторики традиционных СМИ.
  5. Последующий период Штат компании стабилизируется на уровне 800 человек при значительном росте операционной выручки.
⚖️ Другая сторона
Искусственный интеллект Scale AI Alex Wang Frontier Data AGI Nvidia