Как потребительский ИИ совершил экономический переворот и обогнал B2B-софт?

a16z (Andreessen Horowitz) 7,1 тыс. 29 мин 10 мин 13.06.2025
Главное

Венчурный фонд a16z (Andreessen Horowitz) представил первый выпуск подкаста «This Week in Consumer AI», ведущими которого выступили партнеры инвестиционной команды фонда — сестры-близнецы Жюстин и Оливия Мур. В центре дискуссии оказались тектонические сдвиги в индустрии потребительского искусственного интеллекта: от технологического прорыва в генерации мультимодального видео до неожиданных финансовых рекордов стартапов, которые по темпам роста выручки начали опережать традиционный B2B-сегмент.

🎬 Эра AI-видео: модель V3 от Google как «момент ChatGPT» 2:00

Индустрия генеративного видео переживает переломный момент, который по своему масштабу сопоставим с появлением ChatGPT для текстовых моделей. До недавнего времени ИИ-видео воспринималось скорее как многообещающая, но малоприменимая на практике технология. Однако выход новой модели V3 от лаборатории Google DeepMind полностью изменил ландшафт, спровоцировав лавинообразный рост генераций в социальных сетях.

Главное технологическое отличие V3 от предыдущей версии V2, запущенной в конце прошлого года, заключается в нативной синергии модальностей: модель генерирует аудиопоток одновременно и в единой связке с видеорядом. Пользователю больше не нужно использовать сторонние платформы для озвучивания. Достаточно детального текстового промта (например, «интервью в стиле street style, где мужчина подходит к женщине и спрашивает о приложениях для знакомств, а она отвечает с подозрением»), чтобы получить реалистичный ролик с говорящими персонажами, правильной мимикой и синхронизированными репликами.

Тем не менее текущая версия V3 имеет ряд жестких ограничений:

Чтобы обойти эти ограничения, креаторы используют изобретательные хаки. В соцсетях набирают миллионные просмотры блоги «некомпетентного штурмовика Грега» из «Звездных войн» или влоги Йети и Капибары. Поскольку лица персонажей скрыты масками или шерстью, человеческий глаз менее чувствителен к мелким изменениям геометрии между 8-секундными отрывками, что позволяет монтировать полноценные многоминутные сюжеты.

По словам инвесторов a16z, коммерческий доступ к V3 устроен достаточно гибко, хотя технология остается дорогой. Изначально модель была доступна только в рамках подписки Google AI Ultra через креативную студию Flow за $250 в месяц. Сейчас модель открыта через API, благодаря чему потребительские платформы (такие как Hedra или Crea) предлагают доступ к ней в рамках тарифов за $10 в месяц. На разработческих платформах вроде Fall или Replicate тарификация посекундная — около 75 центов за секунду готового видео.

Ведущие прогнозируют, что следующим шагом станет появление более оптимизированных, дистиллированных моделей от Google и конкурентов, способных выдавать длинные хронометражи с меньшей стоимостью инференса. Параллельно на рынке оформляется тренд на «безликие каналы» (faceless channels), авторам которых больше не нужно стоять перед камерой, чтобы создавать вовлекающий повествовательный контент.

🗣️ Очеловечивание ИИ: обновленный продвинутый голосовой режим ChatGPT 6:29

OpenAI без громких анонсов выпустила масштабное обновление продвинутого голосового режима (Advanced Voice Mode) для ChatGPT. Сначала обновление получили платные подписчики, после чего началось развертывание на всю пользовательскую базу.

В ходе прямой демонстрации в подкасте обновленный интерфейс продемонстрировал поразительный уровень антропоморфности: модель мгновенно реагирует на реплики, меняет интонацию при приближении к вопросительным предложениям, улавливает контекст и естественно использует маркеры человеческой речи — вздохи, паузы, заполняющие звуки («эм», «хм») и даже симулированные ошибки. Модель способна кашлять, переходить на шепот, имитировать акценты и мгновенно переключаться между языками.

Спикеры отмечают странную динамику в действиях OpenAI. Компания была пионером потребительского голосового ИИ в реальном времени, запустив первую версию еще в прошлом сентябре. Однако затем разработка фактически замерла, уступив лидерство конкурентам: опенсорсным решениям от Sesame, а также голосовым продуктам в Gemini и Grok. Настоящим прорывом в контексте естественности долгое время оставался сервис NotebookLM, который первым внедрил реалистичные паузы и междометия.

По мнению Жюстин Мур, задержка OpenAI с выпуском столь очеловеченной версии во многом объясняется репутационными рисками и прошлогодними скандалами вокруг схожести ИИ-голоса с актрисой Скарлетт Йоханссон (фильм «Она»). Ведущие полагают, что руководство компании могло быть напугано разговорами о том, что ИИ заменит людям реальных партнеров, и сознательно притормозило релиз, чтобы не форсировать пугающие общество сценарии. Кроме того, перед фронтирными лабораториями всегда стоит сложнейшая дилемма распределения ресурсов между генеральной целью (текстовый сильный ИИ / AGI), видеомоделью Sora и мультимодальной логикой GPT-4o.

🍏 Стратегия Apple: аутсорсинг интеллекта и осторожность Siri 10:13

Обсуждая итоги недавней конференции разработчиков Apple, эксперты a16z сошлись во мнении, что экосистема Apple Intelligence пока оставляет ощущение недосказанности и некоторого разочарования. Ожидаемая революция Siri как полноценного персонального ассистента на мобильном устройстве откладывается.

Оливия Мур поделилась личным примером: на бытовой вопрос о том, каким именно по счету понедельником месяца будет завтрашний день (что критически важно для графика уборки улиц в Сан-Франциско), Siri ответила отказом и предложила перенаправить запрос в ChatGPT. По оценке инвесторов, Apple сейчас фактически занимается аутсорсингом глубоких интеллектуальных функций на серверы OpenAI, запуская сторонние модели прямо на iPhone.

Вектор развития Apple в сфере ИИ на данный момент выглядит следующим образом:

🎭 ElevenLabs 11v3: управление эмоциями через текст 12:10

Лидер в сфере синтеза речи ElevenLabs представил третье поколение своей флагманской модели — 11v3. Этот релиз кардинально упрощает процесс создания сложного эмоционального аудиоконтента.

Ранее для создания специфического эффекта (например, если персонаж должен был плакать, шептать или говорить с определенным надрывом) требовался пайплайн Speech-to-Text-to-Speech: создатель записывал собственный голос с нужной эмоцией, загружал его в систему, и лишь затем модель клонировала интонации на целевой ИИ-голос. В версии 11v3 управление эмоциональной палитрой полностью переведено на текстовые промты с помощью системы тегов.

Через обновленный интерфейс-редактор пользователь может задать текст, выбрать голос и напрямую прописать маркеры поведения: [sadly] (грустно), [resigned] (обреченно), [whispering] (шепотом) или добавить звуковые эффекты. Модель научилась корректно обрабатывать сценарии прерывания речи (когда один персонаж резко обрывает другого на полуслове). Продемонстрированное в подкасте аудио с утрированным техасским акцентом, фоновым мычанием коров и внезапным спором двух персонажей доказало, что ИИ-озвучка вышла на уровень естественного диалога, что открывает огромные перспективы для создания аудиокниг, рекламы и инди-анимации.

📈 Экономическое чудо: почему потребительские AI-стартапы растут быстрее B2B 15:38

Инвестиционная команда a16z провела масштабное исследование внутренней базы данных по стартапам, возникшим за последние 22–24 месяца генеративной эры, оценив скорость их коммерциализации. Результаты полностью опровергают классические каноны венчурного рынка.

В до-иИшную эпоху (pre-AI) стандарты индустрии жестко разделяли B2B и B2C сегменты. Для корпоративного софта (B2B SaaS) достижение планки в $1 млн ARR (годового повторяющегося дохода) за первый год продаж считалось бенчмарком и признаком лучшего в своем классе стартапа. Потребительские же стартапы (B2C) вообще не монетизировались первые 3–5 лет: они агрессивно растили базу бесплатных пользователей, рассчитывая в будущем внедрить рекламную модель или механики маркетплейса.

Генеративный ИИ перевернул эту модель. Потребительские AI-стартапы с первого дня внедряют прямую платную подписку, демонстрируя аномальные финансовые показатели через 12 месяцев после начала монетизации:

Эти цифры в среднем в два раза превышают показатели аналогичных B2B-стартапов в сфере ИИ на том же отрезке жизни. Жюстин Мур выделяет две фундаментальные причины такого феномена. Во-первых, стартапы были вынуждены сразу брать деньги с пользователей из-за высокой стоимости COGS (себестоимости проданных товаров). Традиционный софт имеет нулевую маржинальную стоимость копирования. В ИИ каждый запрос пользователя к модели (инференс) стоит компании реальных центов или даже долларов. Активный юзер может обходиться стартапу в десятки долларов ежемесячно, что исключает возможность долгой бесплатной работы.

Во-вторых, ценность продуктов оказалась настолько высока, что потребители согласились платить ощутимые деньги. Анализ a16z показывает, что средний чек подписки в потребительском ИИ составляет $22 в месяц, что более чем вдвое выше средних тарифов pre-AI подписок.

Инвесторы разделяют платящую аудиторию на несколько ключевых вертикалей:

Отдельно авторы исследования затронули проблему удержания пользователей (retention). На рынке циркулируют скептические мнения, что пользователи быстро уходят из приложений после первой недели тестов. В a16z подтверждают наличие феномена «AI-туризма» (огромный наплыв бесплатного трафика, который не задерживается на сайте). Однако если оценивать когорту платных подписок, показатели их удержания на медианном уровне полностью соответствуют успешным pre-AI компаниям.

Более того, в потребительском ИИ впервые возникли экономические паттерны из индустрии Enterprise-софта и мобильного гейминга — возможность апселла (внутренних допродаж) и монетизация «китов» (Whales). Потребители не просто платят фиксированные $10–20 в месяц. Когда у них заканчиваются генеративные токены или лимиты на картинки, они докупают дополнительные пакеты кредитов на $12, $50 или больше, формируя чистый тренд расширения выручки (revenue expansion).

Параллельно фиксируется беспрецедентно быстрый переход стартапов из потребительского сегмента в корпоративный (B2C to B2B). Если у таких гигантов, как Canva, движение от просьюмеров к крупным контрактам занимало 5–7 лет, то сейчас такие игроки, как ElevenLabs, мгновенно конвертируют пользователей начального тарифа за $10 в крупные Enterprise-соглашения с высоким ACV (годовой стоимостью контракта). Крупные рекламные и развлекательные агентства массово используют тот же Midjourney «снизу вверх» (bottoms-up): рядовые сотрудники собирают там концепты и рендеры, которые в итоге идут в финальные коммерческие продукты компании.

🍦 Кейс Melt: создание полноценного бренда с помощью ИИ за пару часов 23:13

В финальной части выпуска Жюстин Мур продемонстрировала практический кейс по экспресс-созданию вымышленного бренда замороженного йогурта Melt («Таять»), стилизованного под хипстерскую эстетику современного Нью-Йорка. Весь процесс — от нейминга до генерации финальных рекламных креативов и дизайна интерьера торговой точки — занял менее двух часов благодаря сквозному использованию нескольких ИИ-инструментов.

Ключевым технологическим драйвером эксперимента выступил релиз модели Flux Context от Black Forest Labs, развернутой на платформе Krea. Разработчики позиционируют Flux Context как «Photoshop на естественном языке». В отличие от мультимодальной GPT-4o, которая при попытке перенести объект в новую среду часто искажает его базовую геометрию и черты лица, Flux Context демонстрирует практически безупречное удержание консистентности.

Пайплайн создания бренда выглядел следующим образом:

  1. Брейншторминг и концепт: С помощью ChatGPT был проработан текстовый концепт марки Melt, выбрана целевая аудитория (молодежь 20+), определена цветовая палитра упаковки и шрифтовые гайдлайны.
  2. Генерация логотипа и упаковки: Текстовое описание было отправлено в нейросеть Ideogram, которая лидирует в вопросах рендеринга сложной типографики и надписей. Она сгенерировала базовое изображение: минималистичный стаканчик с йогуртом, парящий в воздухе, с корректно написанным логотипом Melt.
  3. Создание контента во Flux Context: Исходный стаканчик был загружен в Krea. С помощью простых текстовых команд объект без потери детализации логотипа был интегрирован в самые разные сцены: «стаканчик стоит на стойке трендового ресторана», «упаковка в руке девушки, гуляющей в парке». Также модель позволила легко менять свойства самого объекта — перекрасить ободок стакана из синего в розовый или сделать сам йогурт фиолетовым для имитации специального вкуса из филиппинского ямса (ube). На финальном этапе логотип был наложен поверх сгенерированного ИИ футуристичного фасада здания — так бренд получил визуализацию своей физической розничной точки.

Жюстин отметила, что логичным завершением пайплайна должна стать анимация: отправка продуктовых кадров в видеомодель V3 или Higgsfield для симуляции физики завихрений йогурта и его плавления по краям стаканчика, чтобы проверить, насколько точно алгоритмы понимают динамику жидкостей.

По мнению Оливии Мур, данный кейс наглядно иллюстрирует контуры будущего предпринимательства. Индустрия движется к концепции «Full Stack AI Brands». Скоро любой человек без технических навыков и знания сложных интерфейсов вроде классического Photoshop сможет «навайбить» (vibe-code / vibe-design) бренд: создать логотип, сгенерировать карточки товаров, запустить сайт, настроить логистику дропшиппинга, а рекламную кампанию в TikTok поручить виртуальным ИИ-инфлюенсерам на базе видеомоделей вроде V3, которых физически не существует в реальности.

💬 Цитаты

«V3 была своего рода моментом ChatGPT для AI-видео, когда мы внезапно увидели, как генерации взрывают соцсети с миллионами просмотров.»

Жюстин Мур 01:45

«Медианный показатель ARR потребительских стартапов в эпоху ИИ составляет 4,2 миллиона долларов к 12-му месяцу. В до-ИИ эру мы никогда не видели ничего подобного.»

Оливия Мур 17:24
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
ARR
Годовой повторяющийся доход — метрика регулярной выручки стартапа за годовой период.
COGS
Себестоимость проданных товаров — прямые затраты, связанные с производством или предоставлением ИИ-услуги (включая серверные мощности).
Инференс
Процесс работы уже обученной нейросети, когда она выполняет вычисления для ответа на запрос пользователя.
Промт
Текстовый запрос или инструкция, передаваемая нейросети для получения нужного результата.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект a16z Google V3 ElevenLabs Flux Context ChatGPT