Александр Вэнг: почему человеческие данные определят судьбу искусственного интеллекта

Производство высококачественных данных становится главным полем битвы в индустрии искусственного интеллекта, определяющим технологический прогресс и устойчивость бизнес-моделей. В рамках серии интервью «AI Revolution» от венчурного фонда a16z генеральный партнёр Дейвид Джордж обсудил с сооснователем и генеральным директором Scale AI Александром Вэнгом фундаментальные изменения на рынке ИИ. Собеседники подробно разобрали проблему «технологической стены» из-за дефицита публичных данных, истинные масштабы инвестиций Кремниевой долины, системные ошибки управления в стартапах и новую кадровую философию, приходящую на смену традиционным практикам многообразия.

🧱 Три столпа ИИ и феномен «стены данных» 1:23

Развитие технологий искусственного интеллекта опирается на три фундаментальных элемента, прогресс в каждом из которых определяет возможности всей индустрии. По словам Александра Вэнга, этими столпами являются:

Вычислительные мощности (Compute), главным драйвером которых выступают такие игроки, как Nvidia.
Алгоритмические архитектуры (Algorithms), развиваемые ведущими лабораториями, включая OpenAI и Anthropic.
Данные (Data), обеспечением и подготовкой которых занимается Scale AI.

Эволюция больших языковых моделей (LLM) к текущему моменту прошла два ключевых этапа и вступает в третий. Первый этап представлял собой эпоху чистых академических исследований, начавшуюся с публикации базовой статьи о архитектуре Transformer и закончившуюся экспериментами уровня GPT-3. Второй этап, продлившийся последние три года, стал фазой масштабного инженерного исполнения. В этот период ключевые усилия лабораторий, включая Google, Meta, Anthropic и xAI, были направлены не на фундаментальную науку, а на сложнейшую системную инженерию: развёртывание гигантских вычислительных кластеров и устранение скрытых багов при обучении моделей.

Однако сейчас индустрия вплотную приблизилась к так называемой «стене данных» (data wall). Разработчики практически полностью исчерпали легкодоступные общественные массивы информации, такие как веб-архив Common Crawl. Александр Вэнг утверждает, что дальнейший прогресс за счёт простого поглощения интернет-страниц невозможен, и наступает эпоха направленного производства данных. Полноценное обучение систем нового поколения потребует создания специализированных «литейных заводов данных» (data foundries), способных генерировать колоссальные объёмы сложной информации, недоступной в открытом вебе.

🤖 Фронтирные данные и тупик в развитии ИИ-агентов 6:13

Основным препятствием для создания по-настоящему автономных ИИ-агентов является полное отсутствие релевантной информации в глобальной сети. Александр Вэнг отмечает, что концепция агентов остаётся главным рыночным трендом последние два года, однако ни один продукт до сих пор не работает на коммерчески зрелом уровне. Причина кроется в том, что в интернете нет готовых логов и цепочек рассуждений, отражающих реальную офисную работу человека.

В качестве примера глава Scale AI приводит способность к композиции инструментов (tool composition). Современные фронтирные модели показывают крайне низкие результаты, когда им необходимо последовательно применить несколько различных утилит для решения одной задачи. Типичный рабочий процесс человека выглядит следующим образом:

Найти необходимую информацию в поисковой системе или базе данных.
Написать короткий скрипт на Python для её обработки.
Построить наглядный график по полученным результатам.
В случае возникновения ошибки вернуться на шаг назад и пересмотреть алгоритм решения.

Подобные сложные когнитивные цепочки и переключения между окнами приложений естественны для людей, но они никак не фиксируются в текстовом виде на веб-страницах. Для преодоления этого барьера Scale AI разворачивает масштабные проекты по генерации «фронтирных данных». Этот процесс представляет собой синергию человеческих экспертов и алгоритмических методов. Вэнг описывает данный подход как превращение интернета из платформы для развлечения людей в гигантский целенаправленный эксперимент по генерации данных на стероидах. Важную роль в этом процессе будет играть гибридный подход — использование синтетических данных, качество которых непрерывно верифицируется и корректируется человеком внутри обучающего цикла (human-in-the-loop).

💰 Триллионный capex Бигтеха и регуляторные барьеры 10:07

Обладание огромными внутренними массивами пользовательских данных крупнейшими технологическими корпорациями не гарантирует им автоматического лидерства из-за жесткого государственного регулирования. Александр Вэнг напоминает об историческом прецеденте, когда компания Meta использовала открытые фотографии и хэштеги пользователей Instagram для обучения алгоритмов распознавания образов. Этот исследовательский проект обернулся для корпорации затяжными и болезненными юридическими разбирательствами с регуляторами в Европе. По оценке гостя, перспективы использования корпорациями собственных закрытых данных в коммерческих целях остаются неопределёнными.

Истинное и наиболее опасное преимущество Бигтеха заключается в наличии сверхуспешных и сверхприбыльных основных бизнесов, генерирующих фактически неограниченный капитал для закупки оборудования. В ходе отчётов перед инвесторами руководители крупнейших ИТ-гигантов открыто заявляют, что в текущей ситуации риск недоинвестировать в ИИ гораздо опаснее риска потратить лишние средства. Александр Вэнг объясняет эту логику простым соотношением потенциальных выгод и угроз:

В случае технологического прорыва лидерство в сфере ИИ способно с минимальными усилиями добавить к рыночной капитализации компании ещё один триллион долларов.
В случае отказа от агрессивных инвестиций (дополнительные 20–30 миллиардов долларов капитальных затрат в год) ключевые продукты корпораций сталкиваются с фундаментальным экзистенциальным риском полного уничтожения новыми технологиями.

С тактической точки зрения Бигтех легко окупает колоссальный capex даже без создания принципиально новых продуктов. Александр Вэнг и Дейвид Джордж сходятся во мнении, что минимальное улучшение алгоритмов таргетинга рекламы в Facebook или Google за счёт новых ИИ-моделей мгновенно возвращает миллиарды долларов выручки. Аналогично, интеграция ИИ-функций в экосистему Apple способна запустить масштабный цикл обновления аппаратных устройств пользователями. При этом огромные инвестиции гигантов приносят пользу всей индустрии: компании вынуждены сдавать избыточные мощности в аренду, а выпуск открытых моделей уровня Llama 3.1 создаёт колоссальный бесплатный технологический профицит для независимых разработчиков.

📉 Коммодизация моделей и смещение ценности в приложения 13:42

За последние полтора-два года стоимость вывода (инференса) языковых моделей на рынке упала на два порядка — примерно в 100 раз. Столь стремительное удешевление указывает на то, что сам по себе «сырой» искусственный интеллект может превратиться в обычный биржевой товар (commodity), лишённый уникальной маржинальности. Александр Вэнг считает, что бизнес по чистой сдаче моделей в аренду в долгосрочной перспективе окажется весьма посредственным и малоприбыльным. Доступность альтернатив от разных лабораторий и агрессивная политика Meta по выпуску бесплатных открытых моделей ставят жесткий верхний предел для ценообразования на уровне базовых алгоритмов.

Устойчивые бизнес-модели с высокой маржинальностью будут формироваться строго выше и строго ниже уровня самих моделей. Карта распределения ценности на рынке выглядит следующим образом:

Нижний уровень (Инфраструктура): Безусловным лидером является Nvidia, однако облачные провайдеры (AWS, Microsoft Azure, Google Cloud) также сохраняют отличную маржу. Логистическая и инженерная сложность развёртывания, охлаждения и обслуживания огромных GPU-кластеров настолько высока, что традиционные дата-центры обладают колоссальным преимуществом перед любыми мелкими игроками.
Верхний уровень (Приложения): Сервисы вроде ChatGPT демонстрируют отличные финансовые показатели. Стартапы, которые находят точное соответствие продукта рынку (PMF) и выстраивают качественный пользовательский опыт (UX), создают ценность, которая многократно превышает их затраты на оплату инференса моделей.

Ярким индикатором изменения рыночной структуры Александр Вэнг называет запуск функции Artifacts в модели Claude от Anthropic. Это событие ознаменовало переход от скучных и примитивных чат-ботов к глубоким интерфейсным интеграциям. Тот факт, что OpenAI и Anthropic наняли директоров по продукту (Chief Product Officers) практически одновременно, с разницей в два месяца, подтверждает: лидеры индустрии осознали неизбежность конкуренции на уровне продуктовых экосистем, удержания клиентов и интеграции в рабочие процессы.

🏦 Иллюзии корпоративного сектора и реальность закрытых данных 18:35

Первоначальный хаос и массовая закупка ИИ-решений крупным бизнесом сменились стадией прагматичной оценки результатов. Александр Вэнг констатирует, что лишь малая часть пилотных проектов (POC) в итоге дошла до реальной промышленной эксплуатации, вопреки ожиданиям аналитиков. Отрезвление крупного бизнеса связано с тем, что предрекаемый «технологический апокалипсис» не случился, и ИИ пока не перекроил устоявшиеся индустрии, принеся лишь локальные выигрыши в эффективности клиентской поддержки и автоматизации творческих задач.

Scale AI ориентирует своих корпоративных клиентов на поиск сценариев, способных напрямую повлиять на рыночную стоимость акций компании. В краткосрочной перспективе это выражается в радикальном сокращении издержек. В долгосрочной — автоматизация и стандартизация взаимодействия с клиентами позволяют устранить человеческий фактор, повысить качество сервиса и за счёт этого агрессивно отбирать долю рынка у менее технологичных конкурентов.

По мнению Вэнга, генеративный ИИ впервые в истории даёт шанс капитализировать колоссальные массивы данных, хранящиеся внутри корпораций. Предыдущая волна Big Data давала лишь поверхностную аналитику для принятия решений, но не меняла саму суть продуктов. В таких сферах, как управление благосостоянием (wealth management) в крупных банках уровня JPMorgan или Morgan Stanley, критически важная информация о взаимодействии с клиентами полностью скрыта внутри компании, и её невозможно воссоздать по открытым источникам в интернете.

Главной проблемой на этом пути остаётся традиционная операционная немощь корпораций. Их данные исторически децентрализованы и находятся в хаотичном состоянии. Александр Вэнг иронизирует, что крупный бизнес годами платит консалтинговым фирмам десятки и сотни миллионов долларов за масштабные «миграции данных», но эти процессы практически никогда не приводят к реальным изменениям в бизнес-результатах. Текущая рыночная ситуация превращается в гонку: успеют ли корпорации навести порядок в своих архивах быстрее, чем гибкие стартапы найдут способ обойтись без этих данных для создания превосходящих продуктов.

📉 Парадокс раздутых штатов и ловушка наёмных топ-менеджеров 24:42

Опыт бурного роста рынка в 2020–2021 годах выявил опасные системные заблуждения технологических компаний относительно масштабирования команд. В период пандемии индустрия была охвачена паникой «войны за таланты», заставлявшей бесконтрольно увеличивать штат. Александр Вэнг делится опытом Scale AI: последние несколько лет компания сознательно удерживает количество сотрудников на стабильном, практически неизменном уровне. При этом за тот же самый период показатели самого бизнеса выросли в 5–6 раз.

Логичное на первый взгляд утверждение «больше людей — больше результатов» в реальности оказывается деструктивным парадоксом. Александр Вэнг формулирует жесткую закономерность управления:

«Если у вас есть высокопроизводительная команда и эффективная организация, практически невозможно резко увеличить её численность и при этом не потерять качество работы и уникальную культуру побед».

Минимизация штата резко снижает издержки на внутреннюю координацию и коммуникации, что парадоксальным образом увеличивает общую продуктивность бизнеса. Сильная команда — это тонкое, хрупкое скульптурное произведение, баланс внутри которого разрушается при резком впрыске новых людей, неизбежно приводя к регрессии к среднему значению. Масштабирование штата работает исключительно в линейных операционных структурах, например, в крупных отделах продаж, где финансовые результаты можно жестко заскриптовать и операционализировать.

Типичный сценарий гибели перспективного стартапа под воздействием инвесторов и внешних топ-менеджеров выглядит следующим образом:

Молодая компания находит работающий продукт, но вся команда состоит из неопытных специалистов, и при росте нагрузки начинаются операционные сбои.
Венчурные инвесторы требуют от основателя немедленно нанять «опытных руководителей» с рынка.
Основатель проходит через изнурительные и психологически тяжелые поиски, нанимая статусных директоров.
Новые топ-менеджеры заявляют, что для достижения целей им жизненно необходимо нанять под себя огромные новые команды.
Доверяя их резюме, основатель даёт карт-бланш на раздувание штата, что почти всегда приводит стартап к операционному и финансовому краху.

Привлечение внешних руководителей допустимо, но они обязаны пройти жесткий период адаптации. Прежде чем предлагать любые кадровые или структурные реформы, новый директор должен полностью погрузиться в операционный ритм компании, понять, почему и как система успешно работала до его прихода, и доказать свою полезность через серию мелких, верифицируемых шагов.

Вэнг выделяет две опасные иллюзии, распространенные в Кремниевой долине:

Фантазия наёмного менеджера: Вера в то, что он приходит в стартап к молодым основателям как «взрослый в комнате», призванный навести порядок и превратить хаос в «профессиональную операционную деятельность». Вэнг подчёркивает, что компания нанимает коллегу с хорошим аналитическим мышлением для долгосрочной работы, а не покупает «волшебную палочку» или готовый секретный рецепт успеха.
Фантазия фаундера: Иллюзия основателя стартапа, который рассчитывает нанять команду звездных директоров, полностью переложить на них всю неприятную рутинную работу, отойти от управления и спокойно наблюдать за идеальным вращением шестерёнок бизнес-машины.

Высокая стоимость технологических стартапов обусловлена их способностью непрерывно опережать рынок в инновациях. Если основатель полностью изымает себя из контуров принятия ключевых решений, компания мгновенно теряет эту способность. Подобный отход от дел работает исключительно в стагнирующих, стабильных и защищенных индустриях, где смена генерального директора двигает котировки акций максимум на 2%, но губителен для быстрорастущего технологического бизнеса.

🎯 Кадровая доктрина MEI против классической повестки DEI 31:34

В рамках реформирования корпоративной культуры Scale AI официально зафиксировала переход к новой кадровой концепции под названием MEI (Merit, Excellence, and Intelligence — Заслуги, Исключительность и Интеллект). Эта декларация вызвала серьезные дискуссии в технологическом сообществе. Суть подхода заключается в том, что на каждую позицию в компании нанимается максимально сильный кандидат, опираясь исключительно на его профессиональные навыки и когнитивные способности, вне зависимости от его демографических признаков, расы, пола или возраста.

Компания полностью отказывается от квотирования рабочих мест и искусственной оптимизации структуры штата ради достижения заданных демографических показателей. При этом концепция MEI не отрицает важности разнообразия: Scale AI продолжает активно заботиться о привлечении максимально широкого и разнообразного круга кандидатов на самом раннем этапе отбора (top of funnel). Однако финальное решение о найме принимается строго на основе меритократии.

Александр Вэнг считает этот шаг возвращением к здравому смыслу, который во многом был утерян современной корпоративной Америкой. В условиях работы в жесткой конкурентной среде, где создаются критически важные для человечества технологии ИИ, компания не может позволить себе компромиссы в качестве человеческого капитала. Кодификация этой доктрины гарантирует команде, что стандарты качества и профессиональные требования внутри Scale AI останутся неизменно высокими независимо от конъюнктурных изменений рынка в будущем.

🔮 Определение и сроки достижения AGI 33:46

В завершение дискуссии Александр Вэнг представил своё рабочее определение Искусственного общего интеллекта (AGI) и консервативный прогноз по срокам его реализации. С его точки зрения, технологическим порогом достижения AGI следует считать способность системы полностью, автономно и на качественном уровне выполнять более 80% всех существующих видов удалённой работы (digital-focused / computer-based jobs).

По оценке главы Scale AI, появление систем такого уровня не является неизбежным или сиюминутным событием следующих месяцев. Реальные сроки лежат в горизонте от четырёх и более лет. Однако Вэнг признаёт, что первые предвестники и контуры этих технологий видны уже сегодня, а реальная скорость их развёртывания будет напрямую зависеть от успешности новых алгоритмических циклов и преодоления текущего дефицита данных.