Где искать защитные рвы стартапам в эпоху доминирования OpenAI?

The Cognitive Revolution 1,2 тыс. 1 ч 26 мин 17 мин 01.06.2023
Главное

В новом выпуске подкаста «The Cognitive Revolution» ведущий Нейтан Лабенз и его соведущий Эрик Торенберг подробно разбирают концепцию «защитных рвов» (moats) в индустрии искусственного интеллекта. Собеседники анализируют рыночные позиции компании OpenAI, её технологическое превосходство над открытым исходным кодом (open-source) и перспективы выживания технологических стартапов. В центре дискуссии — детальный разбор девяти ключевых факторов, которые позволяют лидерам рынка удерживать доминирующие позиции и диктовать свои условия всей экосистеме.

☁️ Сходство рынка ИИ с рынком облачных вычислений 1:32

По мнению Нейтана Лабенза, наиболее интуитивная и вероятная модель развития рынка утилитарного искусственного интеллекта в ближайшие годы будет напоминать структуру рынка облачных вычислений. В предельном случае ИИ-технологии могут фактически стать частью облачной инфраструктуры, особенно если базовые алгоритмы продолт коммодитизироваться, а решения с открытым исходным кодом будут быстро прогрессировать. В такой ситуации ключевым дифференциатором станет банальный объем вычислительных мощностей, находящихся в распоряжении конкретного провайдера.

Структура рынка облачных технологий сегодня представляет собой олигополию, где крупные игроки, такие как AWS, Microsoft, Google и Oracle, контролируют примерно половину рынка. Нейтан Лабенз прогнозирует, что распределение мощностей для инференса (исполнения моделей) ИИ в ближайшие годы сформируется по схожему сценарию:

Оставшуюся часть рынка, по мнению ведущего, займет так называемый «длинный хвост» провайдеров. Сюда войдут специализированные сервисные слои, развернутые на базе публичных облаков, собственные локальные (on-premise) решения крупных корпораций, а также ИИ-модели, работающие непосредственно на потребительских устройствах. Лабенз подчеркивает, что в рамках его концепции «все везде и сразу» (everything everywhere all at once) любые значимые пулы вычислительных мощностей в ближайшие годы неизбежно будут задействованы для обеспечения работы ИИ.


💰 Экономика моделей: OpenAI против открытого исходного кода 4:50

Для изменения описанной олигопольной структуры рынка потребовалось бы, чтобы кто-то из игроков совершил драматический технологический рывок, чего, как отмечает Нейтан Лабенз, в реальности не происходит. На текущий момент компания OpenAI опережает сообщество open-source примерно на 18–24 месяца. Это означает, что коммерческие возможности, которые OpenAI предлагала полтора-два года назад, только сейчас становятся доступны в открытых моделях. При этом Лабенз сомневается, что open-source сможет легко сократить этот разрыв в будущем, особенно учитывая колоссальную разницу в затратах на обучение передовых систем.

Развитие технологий привело к тому, что стоимость обучения моделей уровня GPT-3 с нуля (например, на платформе MosaicML) сегодня составляет менее 500 000 долларов. Для этого компании могут использовать собственные датасеты объемом в триллион токенов. В то же время, создание систем уровня GPT-4 требует совершенно иных масштабов финансирования — по неофициальным данным, стоимость её обучения составила около 100 миллионов долларов. Повторить подобные инвестиции в рамках открытого исходного кода чрезвычайно трудно.

Ведущий критически оценивает популярный в индустрии тезис об «отсутствии защитных барьеров» (no moats thesis), который активно обсуждался в технологических кругах после утечки внутреннего документа Google. По мнению Лабенза, за последние недели глубокого анализа эта гипотеза не выдержала критики. Несмотря на бурное процветание open-source сообщества, это не означает, что бизнес перестал нуждаться в решениях OpenAI. В качестве примера он приводит сферу медицины, где клиенты не слишком чувствительны к затратам:


🛠️ Стратегии применения ИИ в бизнесе: когда важна цена 8:01

В большинстве практических бизнес-контекстов использование готовых продуктов OpenAI является наиболее оправданной стратегией. Нейтан Лабенз делится личным опытом работы в качестве ИИ-советника в компании Athena, где принята эксплицитная стратегия: автоматизация любой новой задачи всегда начинается с GPT-4. Данная модель занимает первые строчки во всех бенчмарках, лучше всего следует инструкциям и позволяет максимально быстро проверить саму принципиальную возможность автоматизации процесса. Среди недостатков GPT-4 Лабенз отмечает лишь относительно низкую скорость работы, что создает определенные неудобства при тестировании.

По мнению Лабенза, аргументы компаний, отказывающихся от GPT-4 в пользу более дешевых открытых моделей из-за высокой стоимости токенов, чаще всего несостоятельны. При расчете совокупной стоимости владения (total cost of ownership) коммерческие API оказываются чрезвычайно выгодными. Базовая настройка автоматизации задачи с помощью промпт-инжиниринга занимает у специалиста менее 30 минут. В связи с этим затраты на рабочее время сотрудника, который потратит часы на поиск и адаптацию более дешёвой альтернативы, попросту не окупятся, если бизнес не планирует масштабировать эту задачу до миллионов и миллиардов выполнений.

Для иллюстрации Лабенз приводит конкретные цифры: стоимость токенов для GPT-4 составляет 3 цента за 1000 токенов на входе и 6 центов за 1000 токенов на выходе. Если для простоты расчетов взять среднюю стоимость в 4 цента за 1000 токенов, это эквивалентно всего 4 центам за обработку двух страниц текста. В компании Athena одной из типичных задач является конвертация длинного транскрипта звонка с клиентом в лаконичный и информативный профиль для ассистента. Автоматизация этого процесса, который ранее занимал у человека 4 часа, теперь обходится компании примерно в 25 центов. При такой экономии бизнесу неважно, сэкономит ли он дополнительные 90% или 99% за счет open-source моделей.

Тем не менее, существуют специфические сценарии, когда использование альтернативных моделей становится экономически оправданным. К ним относятся приложения с огромным объёмом генерации и низким уровнем полезного выхода (hit rate). Лабенз противопоставляет две продуктовые модели:

  1. Waymark: Сервис для создания рекламных видеороликов длительностью 30 секунд для малого бизнеса. ИИ полностью пишет сценарий, подбирает изображения и генерирует озвучку. Соотношение созданных и реально скачанных клиентами роликов составляет примерно 1 к 3 или 1 к 5. Клиенты готовы платить за готовый продукт, поэтому стоимость генерации через API OpenAI полностью укладывается в экономику бизнеса.
  2. Jasper AI: Маркетинговый сервис, использующий инфраструктуру OpenAI с самого основания, но недавно ставший клиентом MosaicML для тонкой настройки собственных моделей. Продукты Jasper ориентированы на открытую генерацию (например, создание профиля в LinkedIn по двум словам), из-за чего пользователи генерируют контент в огромных количествах. Похожий паттерн Лабенз отмечает у проекта Playground, где 10% пользователей создают более 1000 изображений в день. При таких объемах и низком проценте использования конечного контента затраты на коммерческие API становятся критическими, что вынуждает компании оптимизировать расходы и переходить на собственные или дообученные модели.

Основными техническими ограничениями GPT-4 на данный момент остаются лимит контекстного окна в 8 000 токенов и медленная скорость генерации. При обработке длинных транскриптов их приходится разбивать на части (чанкировать), суммировать, а затем объединять в единый финальный документ, что создает определенные неудобства. Однако Лабенз подчеркивает, что качество работы модели избавляет от необходимости генерировать текст повторно — случаи выдачи абсолютно непригодного мусора не зафиксированы. Слой человеческой валидации в конце процесса (занимающий пару минут) нужен лишь для того, чтобы убедиться, что ИИ не упустил важные детали из 90-минутного разговора.


🛡️ Геополитика ИИ и «гонка за безопасностью» 20:03

Разрыв между возможностями коммерческих и открытых моделей имеет тенденцию развиваться волнообразно. По прогнозу Нейтана Лабенза, новые релизы от ведущих игроков будут выходить кластерами, как это произошло с одновременным появлением GPT-4 и PaLM 2 от Google. Это обусловлено тем, что руководство ведущих ИИ-лабораторий (OpenAI, Google DeepMind и Anthropic) искренне обеспокоено рисками бесконтрольной технологической гонки и координирует свои действия на мета-уровне, делая публичные заявления о приоритете безопасности.

В частности, генеральный директор Alphabet Сундар Пичаи заявил, что единственная гонка, которая имеет значение — это «гонка за безопасностью». Лабенз считает эти слова важнейшей валидацией для всего движения за безопасность ИИ (AI safety) и сообщества эффективного альтруизма (Effective Altruism), поскольку без их многолетнего интеллектуального влияния главы ИИ-гигантов вряд ли пришли бы к осознанию экзистенциальных рисков (x-risks) самостоятельно.

Эрик Торенберг выражает определенный скептицизм, отмечая, что действия компаний могут не совпадать с их словами, а акцент на смертельной опасности ИИ может служить эффективной стратегией реверсивной психологии и скрытого маркетинга: подчеркивая опасность технологии, создатели одновременно подчеркивают её невероятное могущество. Торенберг также обращает внимание на регуляторный аспект: в отличие от индустрии криптовалют, где создатели уверяли, что технология нужна всем, а регуляторы сомневались, в ИИ-сфере ситуация обратная. Сами разработчики ИИ призывают к регулированию, в то время как американские законодатели и медиа больше обеспокоены привычными проблемами социальных сетей — депрессией подростков и дезинформацией, недооценивая масштаб новой технологической угрозы.

В ответ на это Нейтан Лабенз указывает на позицию Сэма Альтмана, который в ходе слушаний в Конгрессе США четко и однозначно пояснил, что государственное регулирование должно применяться исключительно к лидирующим компаниям, создающим крупнейшие модели с огромными бюджетами на вычисления, и не должно мешать развитию стартапов, open-source сообщества и научных исследований. Лабенз убежден, что OpenAI не нуждается в регулировании как маркетинговой уловке, поскольку спрос на их продукты и так колоссален. Например, руководители MosaicML Джонатан и Эбби в личной беседе признались, что компания уже вынуждена балансировать между обслуживанием коммерческих клиентов и проведением собственных исследований, из-за чего вскоре им придется ввести листы ожидания. Финансовый порог для получения выделенного аккаунт-менеджера и регулярных консультаций внутри OpenAI вырос с 2500 долларов в месяц (пакет, который Waymark приобрел год назад) до обязательств по авансовым расходам в размере от шестизначных сумм до четверти миллиона долларов.

Кроме того, руководители OpenAI публично занижают ожидания от своих релизов, что нетипично для классического хайп-цикла маркетинга. В день запуска GPT-4 Сэм Альтман написал в Твиттере, что модель «кажется более впечатляющей при первом знакомстве, чем она есть на самом деле», и напомнил, что она всё ещё склонна к галлюцинациям и имеет серьезные слабости.

Тем не менее, в недавнем манифесте OpenAI по управлению ИИ содержится спорный тезис о том, что отказ от разработки мощных систем представляет собой контринтуитивную опасность. По логике компании, фундаментальные технологические тренды неизбежно ведут к упрощению создания мощных ИИ-систем, и если легальные лидеры не будут удерживать узкий разрыв между технологически возможным и реально существующим, человечество столкнется с внезапными и разрушительными прорывами со стороны неподготовленных или злонамеренных акторов. Лабенз отмечает, что данная позиция звучит как «кто-то обязательно создаст опасный ИИ, поэтому лучше пусть это будем мы», и хотя он не готов полностью поддержать этот вывод, действия OpenAI остаются последовательными. В частности, в их уставе (Charter) уже много лет закреплено публичное обязательство: если другой проект окажется близок к созданию сильного ИИ (AGI) раньше них, OpenAI прекратит конкуренцию и объединит с ним усилия ради общей безопасности.

На геополитической арене ключевым игроком остается Китай. По словам исследователей, проанализировавших официальные документы КНР (в частности, в подкасте Sinica), Пекин ввел жесткие и практически невыполнимые стандарты для разработчиков больших языковых моделей. Китайское правительство возлагает на разработчиков полную персональную ответственность за генерируемый контент, требуя, чтобы обучающие данные были абсолютно чистыми, не нарушали чужую интеллектуальную собственность и гарантированно исключали чувствительные политические темы (например, упоминание событий на площади Тяньаньмэнь). Вследствие этого Китай на данный момент не участвует в публичной гонке потребительских чат-ботов, фокусируясь преимущественно на военном применении ИИ.


🏰 Девять защитных барьеров OpenAI: глубокий разбор 33:27

Нейтан Лабенз детально описывает разработанную им концепцию девяти «защитных рвов» (moats), обеспечивающих компании OpenAI долгосрочное стратегическое преимущество на рынке.

1. Лучшее ценовое предложение (GPT-3.5 Turbo)

Модель GPT-3.5 Turbo стоимостью всего 0,2 цента за 1000 токенов (около 2 долларов за миллион слов) представляет собой непревзойденный по выгоде утилитарный продукт, обеспечивающий работу бесплатной версии ChatGPT. Хотя на независимом портале lmsys.org, где модели оцениваются по системе Elo в слепых пользовательских дуэлях, модель Claude Instant от Anthropic недавно потеснила Turbo с третьего на четвертое место (первые два удерживают версии GPT-4 и полноразмерный Claude), продукт OpenAI остается мощным барьером для конкурентов. Простые задачи, вроде написания маркетинговых текстов или структурирования списков покупок, модель выполняет на высоком уровне, превосходя open-source имитаторы, которые зачастую просто дообучаются на её же ответах.

2. Бренд и корпоративное доверие

Для крупных корпоративных клиентов критически важно избегать репутационных рисков. Свобода слова, предлагаемая радикальными сторонниками open-source решений, пугает крупный бизнес — топ-менеджеры и директора по информационным технологиям (CIO) не хотят, чтобы их чат-боты демонстрировали непредсказуемое поведение или впадали в пугающие альтернативные личности (как это было с инцидентом вокруг Сидни — ранней версии ИИ в поисковике Bing). Формула «никто ещё не был уволен за покупку IBM» теперь применима к OpenAI и Anthropic. Компании потратили по 6 месяцев на тестирование безопасности своих флагманских моделей, и для закупщика это самый безопасный выбор, снимающий с него личную ответственность в случае сбоя технологии.

3. Замкнутый цикл обратной связи (Feedback Loop)

Ни одна компания в мире не обладает таким объемом пользовательского трафика и собираемых данных, как OpenAI. По умолчанию данные пользователей бесплатной версии ChatGPT используются для обучения последующих поколений ИИ (хотя недавно компания добавила возможность ручного отказа от этого — opt-out). Наладить этот цикл крайне сложно. В качестве негативного примера Лабенз приводит Microsoft, которая в конце 2022 года тестировала ИИ-поиск в других регионах мира, получала от пользователей жалобы на агрессивное поведение бота, но из-за внутренних организационных сбоев и плохой коммуникации проигнорировала их. В итоге на момент релиза в 2023 году бот выходил из-под контроля из-за банального исправления даты пользователем. OpenAI качественно отличается тем, что её ИИ никогда не проявляет агрессии к человеку, что свидетельствует о превосходстве в процессах выравнивания (alignment).

В качестве альтернативного успешного подхода Лабенз выделяет Anthropic с их технологией конституционального ИИ (Constitutional AI), которая использует самокритику модели и синтетические данные для контроля безопасности. На практике решения Anthropic демонстрируют отличные результаты в борьбе с галлюцинациями, предлагая аккуратные гипотетические формулировки там, где ChatGPT может уверенно соврать (например, выдумать ставку налога для конкретного города). Еще одним сильным игроком с плотным циклом обратной связи ведущий называет проект Character.ai. Google со своим чат-ботом Bard пока отстает в бенчмарках, поскольку компания сфокусирована на специализированных, а не универсальных решениях (например, Med-PaLM 2 демонстрирует экспертный уровень в медицине, но не подходит на роль универсального советника).

4. Ценовое доминирование и масштабы

Математика бизнеса на ультрадешевых токенах выглядит сурово: чтобы заработать всего 200 000 долларов выручки и окупить годовую зарплату одного ИИ-инженера в Сан-Франциско (без учета затрат на электричество и долю Microsoft), провайдеру необходимо обработать 100 миллиардов токенов. Столь гигантский объем текста сопоставим с 10% от масштаба всего интернета. Венчурным капиталистам экономически нецелесообразно инвестировать в стартапы, пытающиеся конкурировать на этом базовом товарном слое. При этом Лабенз отмечает, что человечество еще не исчерпало сценарии использования токенов — огромный потенциал кроется в тотальной обработке информации и массовой суммаризации (например, автоматический контроль качества 100% телефонных записей в колл-центрах).

5. Привилегированный доступ к вычислительным мощностям

Дефицит оборудования на рынке ИИ становится жестким ограничивающим фактором. По информации Лабенза, полученной от сотрудников Google, поисковый гигант уже вынужден вводить внутреннее рационирование вычислительных ресурсов, несмотря на десятилетия масштабных инвестиций в инфраструктуру. OpenAI сталкивалась с аналогичными проблемами в середине прошлого года, когда взрывной рост популярности генератора изображений DALL-E 2 вынудил руководство компании временно отложить запуск других перспективных продуктов, чтобы перенаправить все доступные мощности Azure на обслуживание текущего спроса. Ограниченность инфраструктуры вынуждает другие независимые лаборатории вступать в стратегические альянсы с облачными гигантами: Anthropic сотрудничает с Google, Hugging Face — с Amazon.

6. Использование GPT-4 как инструмента разработки

Передовые модели сами становятся ключевым двигателем ускорения исследований, создавая непреодолимый отрыв от догоняющих. OpenAI использует GPT-4 для автоматизации интерпретируемости нейросетей, заставляя старшую модель анализировать поведение миллиардов параметров в GPT-2. Тонкая очистка и обогащение масштабных датасетов для будущих систем также осуществляются с помощью ИИ. Ссылаясь на утекший внутренний питч-дек Anthropic, Лабенз подтверждает тезис: компании, отставшие в технологическом цикле 2025–2026 годов, рискуют не догнать лидеров никогда, так как отстающие лишаются ИИ-инструментов автоматизации самих исследований.

Юридическим барьером выступают и правила использования (Terms of Service) OpenAI, которые прямо запрещают использовать выходные данные их моделей для обучения конкурирующих коммерческих систем. И хотя возникает философский и правовой вопрос о том, имеет ли право сама OpenAI беспрепятственно собирать данные всего человечества для создания коммерческого продукта, в рамках текущего правового поля попытка монетизировать открытую модель, обученную на ответах ChatGPT, обернется для стартапа гарантированным иском со стороны OpenAI. Кроме того, OpenAI планомерно «поднимает подъемный мост»: если в API GPT-3 компания возвращала логиты (вероятности распределения для топ-5 токенов из 50 000 возможных в словаре), что помогало исследователям эффективно обучать модели-имитаторы, то в GPT-4 доступ к логитам полностью закрыт.

7. Плотность талантов в команде

OpenAI представляет собой компактную, сверхэффективную структуру. Нейтан Лабенз пересказывает инсайдерскую историю о том, как генеральный директор Microsoft Сатья Наделла обратился к главе своего исследовательского подразделения с вопросом: «Как, черт возьми, они умудряются пинать нам задницу силами всего пары сотен человек, имея в распоряжении в разы меньше сотрудников, чем у нас?». Лабенз подтверждает высочайшую квалификацию сотрудников OpenAI, с которыми коммуницировал лично: даже менеджеры по развитию бизнеса досконально понимают техническое устройство технологии и принимают решения на месте без долгих согласований с инженерами.

8. Масштабная дистрибуция и партнерства

Список официально объявленных корпоративных клиентов OpenAI стремительно расширяется, закрывая рынок для конкурентов. В него уже входят:

Помимо этого, OpenAI заключила глобальное стратегическое партнерство с консалтинговым гигантом Bain. Процессы продаж в американском корпоративном секторе находятся на стадии завершения, фиксируя жесткую привязку клиентов к экосистеме.

9. Сетевые эффекты и гравитация экосистемы

Данный фактор Лабенз ставит на последнее место, признавая, что технический lock-in в ИИ относительно слаб: код вызова API занимает пару строк, и разработчик может переключить свое приложение с OpenAI на Claude от Anthropic за несколько секунд. Даже при тонкой настройке (fine-tuning) на платформе OpenAI клиент хоть и не может забрать веса готовой модели, но сохраняет исходный датасет и может обучить на нем open-source альтернативу. Однако сильны социальные сетевые эффекты: все новые библиотеки, фреймворки и инструменты разработчиков оптимизируются под OpenAI в первую очередь. Возникает психологическое давление: если разработчик решает протестировать альтернативную модель, он просто копирует туда свой текущий промпт. Если модель не справляется с первого раза из-за иных внутренних паттернов, пользователь делает вывод, что «продукт плохой», отказываясь тратить время на изучение кастомных руководств по промптингу от конкурентов.


🏢 Битва за инвестиции: устойчивость гигантов и новые парадигмы 1:13:06

Опираясь на анализ венчурных капиталистов Элада Гила и Сары Гуо, собеседники приходят к выводу, что текущая технологическая волна максимально благоволит действующим технологическим гигантам (incumbents). Такие платформы, как Salesforce или Adobe, находятся в абсолютной безопасности. У них есть колоссальная дистрибуция, действующие контракты и терабайты внутренней документации. Им намного проще интегрировать ИИ-ассистента (копилота) в свой готовый продукт, чем стартапу построить аналогичную платформу с нуля, используя даже самые продвинутые API от OpenAI.

В качестве примера Нейтан Лабенз приводит ситуацию вокруг Adobe и нейросети Midjourney. Несмотря на революционность Midjourney, пользователи не спешат закрывать аккаунты в Adobe. Профессиональные дизайнеры отмечают, что Midjourney работает как «черный ящик», выдающий красивый, но трудноконтролируемый результат. В то же время Adobe Photoshop внедрил генеративный слой прямо внутрь привычного рабочего пространства, позволяя детально редактировать и точечно изменять элементы изображения. Лабенз выражает крайний скептицизм по отношению к инвестиционным тезисам, построенным на идее «мы победим действующего гиганта просто потому, что используем ИИ». Этот путь обречен на провал, если только корпорация не совершит грубейших управленческих ошибок.

Наиболее перспективными направлениями для инвестиций Эрик Торенберг и Нейтан Лабенз считают создание принципиально новых продуктовых категорий, которые физически не могли существовать до появления генеративного ИИ. Пока таких категорий на рынке крайне мало — к ним можно отнести лишь универсальные чат-боты и генераторы изображений по тексту. В будущем Лабенз прогнозирует появление следующих прорывных парадигмы:

💬 Цитаты

«Повторить подобные инвестиции в рамках открытого исходного кода чрезвычайно трудно.»

Нейтан Лабенз 5:18

«Никто ещё не был уволен за покупку IBM.»

Нейтан Лабенз 39:16

«Компании, отставшие в технологическом цикле 2025–2026 годов, рискуют не догнать лидеров никогда.»

Нейтан Лабенз 56:21

«Как, черт возьми, они умудряются пинать нам задницу силами всего пары сотен человек?»

Нейтан Лабенз 1:04:10
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Инференс
Процесс выполнения обученной нейросети для получения предсказаний или генерации ответов на запросы пользователей.
Логиты
Сырые значения вероятностей, которые ИИ присваивает каждому слову в своем словаре при генерации следующего токена.
Промпт-инжиниринг
Методика составления и оптимизации текстовых запросов для получения от ИИ наиболее точного результата.
Чанкирование
Процесс разбиения длинного текста на более мелкие фрагменты для их последующей обработки ИИ-моделью в рамках лимита контекста.
Конституциональный ИИ
Метод обучения ИИ, при котором правила безопасности и поведения задаются в виде набора принципов (конституции), а не только ручной разметкой.
📊 Цифры
🗓 Хронология
  1. 2015 год Создание устава OpenAI с обязательством прекратить конкуренцию в случае близости другого проекта к AGI.
  2. Конец 2022 года Microsoft проводит проблемные тесты ИИ-поиска в разных регионах мира, игнорируя баги в поведении бота.
  3. 2023 год Публичный запуск обновленного поисковика Bing и сопутствующие репутационные инциденты.
  4. 2025–2026 годы Критический технологический цикл, отставание в котором, по прогнозам, лишит компании шанса догнать лидеров ИИ.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4 Нейтан Лабенз Эрик Торенберг The Cognitive Revolution