Партнеры Y Combinator обсудили влияние GPT-4o и Gemini на стартапы

Каждая новая презентация от OpenAI заставляет основателей ИИ-стартапов замирать от страха в ожидании закрытия их бизнеса, однако эволюция больших языковых моделей открывает беспрецедентные возможности для новых технологических компаний. В свежем выпуске подкаста «The Light Cone» групповые партнеры акселератора Y Combinator Гарри Тан, Джаред Фридман, Хардж Таггар и Диана Ху разбирают последние релизы GPT-4o и Gemini 1.5. Они объясняют, почему технологическое соперничество ИИ-гигантов выгодно рынку, как B2B-стартапы извлекают выгоду из «умнеющих по дефолту» моделей и где искать незанятые ниши в эпоху доминирования технологических гигантов.

🧠 Модели умнеют по дефолту: битва продукта и дистрибуции 1:07

При анализе презентаций крупных ИИ-компаний Хардж Таггар в первую очередь задается вопросом о том, что эти релизы значат для стартапов, особенно для участников Y Combinator. По его оценке, OpenAI в своих демонстрациях явно целится в потребительский сегмент (consumer), что логично, ведь изначально ChatGPT взлетел именно как вирусное потребительское приложение. Из-за этого возникает фундаментальный вопрос: как потребительские продукты могут конкурировать с OpenAI и что важнее для победы — продукт или дистрибуция?

Гарри Тан отмечает, что в идеальном мире должен побеждать лучший продукт, но в реальности чаще выигрывает тот, у кого лучше дистрибуция при наличии достаточно хорошего продукта. Тем не менее, по мнению Гарри Тана, стартапы сейчас находятся в уникальной позиции: при переходе на новые модели (например, замене всего одной строки кода с GPT-4 на GPT-4o) их приложения становятся «умнее по умолчанию».

Гарри Тан приводит условную оценку уровня условного интеллектуального потенциала («IQ») современных моделей:

Модель GPT-4 находится на уровне примерно 85 пунктов.
Модель Claude 3 демонстрирует показатели, близкие к 100 пунктам.
Следующее поколение ИИ-систем, по прогнозам, приблизится к отметке 110–130 пунктов.

По словам Гарри Тана, прорыв в логике моделей может произойти не за счет внутренних алгоритмов рассуждения, а благодаря способности ИИ самостоятельно писать и исполнять код для решения задач. Диана Ху добавляет, что важным преимуществом GPT-4o является улучшенный структурированный вывод данных (в частности, в формате JSON). Это позволяет стартапам гораздо легче интегрировать ИИ в стандартную бизнес-логику приложений без необходимости подолгу подбирать промпты, чтобы модель выдала корректный результат.

⚔️ Технический баттл: модули GPT-4o против Mixture of Experts в Gemini 1.5 5:09

Разбирая внутреннюю архитектуру новинок, Диана Ху указывает на принципиальное различие между флагманскими моделями. По её словам, под капотом GPT-4o остается преимущественно текстовая архитектура Transformer (базовая GPT-4), к которой разработчики OpenAI добавили модули для обработки речи и видео. В частности, они использовали архитектуру своей системы распознавания речи Whisper и модель генерации изображений DALL-E, объединив их в общую систему. Из-за этого, как считает Диана Ху, возможности логических рассуждений (reasoning) у GPT-4o существенно не выросли по сравнению с обычной GPT-4.

В то же время Диана Ху признается, что с технической точки зрения её гораздо больше впечатляет Gemini 1.5 от Google, несмотря на то, что презентация OpenAI сильнее захватила общественное внимание. Согласно технической документации, Gemini 1.5 является полноценной архитектурой Mixture of Experts (MoE, смесь экспертов). Эта модель с самого начала обучалась на массивах данных, включающих текст, изображения, аудио и видео, благодаря чему при каждом запросе активируется лишь специфический путь внутри гигантской нейросети.

По мнению Дианы Ху, такой подход делает модель Google крайне энергоэффективной. Спикеры сошлись во мнении, что Google смог реализовать это благодаря своему колоссальному инженерному преимуществу — собственным чипам TPU уже пятого поколения, которые позволяют тренировать гигантские модели в распределенных кластерах. По словам Дианы Ху, в этот раз Google учел прошлые ошибки и технология действительно работает.

💾 Большое контекстное окно против RAG: выживут ли инфраструктурные стартапы? 8:29

Одним из главных преимуществ Gemini 1.5 является контекстное окно размером в 1 миллион токенов (с подтвержденными исследованиями до 10 миллионов), в то время как у GPT-4o оно составляет 128 тысяч токенов. Это эквивалентно примерно пяти книгам по 500 страниц каждая. В связи с этим Диана Ху поднимает дискуссионный вопрос: не станут ли теперь бесполезными многочисленные стартапы, строящие инфраструктуру вокруг технологии RAG (Retrieval-Augmented Generation)?

Хардж Таггар полагает, что компании, заботящиеся о приватности и контроле над своими данными, по-прежнему будут предпочитать системы RAG вместо отправки всей информации в контекстное окно облачной модели. Однако он допускает, что такие клиенты могут остаться лишь частью рынка ранних последователей, тогда как массовый потребитель захочет иметь огромное контекстное окно для создания продвинутых ИИ-ассистентов, знающих о пользователе абсолютно все.

Гарри Тан считает, что RAG все равно необходим в качестве долгосрочной постоянной памяти, из которой специальный рабочий процесс будет извлекать ключевые тезисы и намерения пользователя. В качестве примера зарождения такой функции Гарри Тан приводит новую настройку памяти в ChatGPT на базе GPT-4o. Он рассказывает личную историю, как пытался сгенерировать картинку в стиле «Где Уолли?» для своего сына:

ИИ постоянно выдавал деформированные лица и делал всех персонажей красными, несмотря на просьбу сделать красным только одного робота.
После нескольких настойчивых правок Гарри заглянул в настройки памяти ChatGPT.
Система автоматически сохранила записи: «Гарри очень не хочет видеть деформированные лица на изображениях» и «Следует избегать использования красного цвета».

По мнению Гарри Тана, этот пример показывает, как модель формирует долгосрочную память на основе короткого диалога. В то же время Диана Ху отмечает, что по отзывам основателей стартапов, гигантское контекстное окно Gemini в реальной практике часто теряет специфику: модель иногда просто не может «вспомнить» или извлечь конкретную деталь из загруженного в нее миллиона токенов. Диана Ху проводит аналогию с развитием процессоров в 1990-х годах:

По мере действия закона Мура росли не только скорости CPU, но и уровни кэш-памяти.
Спустя 30 лет мы все еще используем сложную многоуровневую архитектуру кэширования данных (базы данных, быстрые хранилища вроде Redis, кэш браузера).
RAG станет такой же фундаментальной многоуровневой технологией для работы с ИИ, как системы кэширования для обычных баз данных.

Кроме того, Хардж Таггар подчеркивает, что в корпоративном секторе (Enterprise) клиентам жизненно необходимы аудит логов, разграничение прав доступа к чувствительным данным и контроль над тем, какая именно информация извлекается, что делает простое раздувание контекстного окна в облаке неприемлемым.

⏳ Уроки истории: Как выжить под давлением гигантов 17:08

Партнеры YC отмечают, что текущий страх основателей перед каждым релизом OpenAI напоминает им технологические циклы прошлых лет. Джаред Фридман вспоминает период с 2005 по 2010 годы, когда стартапы точно так же замирали в ожидании шагов от Google или Facebook, а инвесторы на питчах всегда задавали один и тот же вопрос: «Что вы будете делать, если Google решит сделать то же самое?».

По словам Джареда Фридмана, история показывает, что лобовая конкуренция с поисковым гигантом всегда заканчивалась крахом для стартапов, однако выжили и выросли компании, выбравшие стратегию вертикального поиска. Участники дискуссии приводят успешные примеры таких бизнесов:

Zillow и Redfin — вертикальный поиск в сфере недвижимости с интеграцией данных MLS и собственной бизнес-моделью брокериджа.
Kayak — специализированный поиск для путешествий.
Algolia — корпоративный поиск для предприятий.

Другой исторический пример касается запуска Google Apps (Docs, Sheets, Drive), когда многие предрекали гибель стартапу Dropbox. Как вспоминает Джаред Фридман, когда в прессу просочились слухи о секретном проекте «G Drive», весь мир решил, что Dropbox обречен, ведь Google обладал бесконечными деньгами и мог раздавать дисковое пространство бесплатно. Тем не менее, Dropbox выдержал это давление.

Гарри Тан подчеркивает, что наличие альтернатив на рынке ИИ (таких как грядущая 400-миллиардная модель Llama 3 от Meta) рушит монопольное ценообразование, позволяя «расцвести тысяче цветов» и давая стартапам возможность сохранять собственную маржинальность. Примечательно, что Meta аккумулировала огромный кластер графических процессоров (GPU) от Nvidia изначально вовсе не ради ИИ, а для обучения рекомендательных моделей в Instagram Reels, чтобы конкурировать с TikTok. Теперь эта инфраструктура неожиданно стала ключевым оружием в ИИ-гонке.

🚫 Что не нужно строить и где искать скрытые триллионные рынки 22:20

Давая практические советы предпринимателям, Гарри Тан призывает избегать создания продуктов, которые лежат на поверхности и очевидно появятся в следующих релизах OpenAI. Например, десктопное приложение OpenAI со временем превратится в полноценного персонального ассистента с доступом к файлам, браузеру и транзакциям, напоминая искусственный интеллект из фильма «Она». Пытаться конкурировать с OpenAI на поле универсальных ассистентов — это то же самое, что пытаться конкурировать с Google в общем поиске.

Вместо этого Джаред Фридман советует сфокусироваться на полезных, но «несексуальных» (unsexy) продуктах, которые ИИ-гиганты никогда не станут демонстрировать на большой сцене, потому что те не поражают воображение фанатов научной фантастики. В качестве примера удачного интерфейса Диана Ху и Гарри Тан называют поисковый сервис Perplexity, который эффективно решает конкретные исследовательские задачи пользователя, предоставляя точные ссылки и источники, в отличие от общих ответов ChatGPT.

Джаред Фридман подчеркивает, что люди склонны недооценивать объемы новых рынков. В свое время ранние сотрудники Facebook не верили в потенциал LinkedIn и Twitter, считая их лишь функциями, которые легко скопировать. То же самое происходило при появлении iPhone и Android, когда никто не ожидал появления многомиллиардных гигантов вроде Uber, Instacart или DoorDash.

Огромной мета-категорией для стартапов остается сектор B2B. По словам Джареда Фридмана, Google исторически практически никогда не создавал успешного B2B-софта для массового рынка, концентрируясь на потребителях. В качестве примера он приводит компанию Segment, которая была абсолютно неинтересна интернет-гигантам.

💰 Золотая жила ИИ: Финтех, комплаенс и автоматизация труда 29:48

Диана Ху объясняет, что в сфере B2B критически важен человеческий фактор: готовность основателей общаться с клиентами, кастомизировать софт под их нужды и исправлять редкие баги силами инженеров. В качестве примера успешного ИИ-стартапа из портфеля YC она приводит компанию Permit Flow, которая занимается автоматизацией и ускорением процесса подачи заявок на разрешения для строительства. Такую функцию сложно представить в качестве релиза от OpenAI.

Особую защищенность B2B-стартапам дают жестко регулируемые ниши (финтех, здравоохранение), где клиенты крайне чувствительны к безопасности данных. Диана Ху перечисляет успешные ИИ-проекты YC в этой сфере:

Greenlight — автоматизация процедур KYC (знай своего клиента) и верификации личностей с помощью ИИ взамен ручного труда.
Greenboard — обеспечение комплаенса и нормативного соответствия для банковского сектора.
Bronco — автоматизация счетов и дебиторской задолженности (AR), а также платежных решений.

Хардж Таггар отмечает, что улучшение базовых ИИ-моделей позволяет B2B-стартапам продавать новые функции своим клиентам в виде премиальных обновлений, увеличивая выручку. Это подтверждается результатами последнего батча YC: некоторые компании начинали акселерацию с годовой выручкой (ARR) в $6 млн, а к концу трехмесячной программы разгонялись до $30 млн.

По мнению Харджа Таггара, автоматизация рабочих мест с помощью LLM открывает рынок, сопоставимый или даже превосходящий всю индустрию облачного ПО (SAS). Традиционный софт давал лишь инструменты для работы, тогда как ИИ берет на себя выполнение самой работы. При этом Гарри Тан советует основателям фокусироваться на конкуренции с другими стартапами в своей нише, а не на действиях OpenAI или Google.

🔞 Рискованный ИИ: Ниши, в которые никогда не пойдут корпорации 33:32

Еще одной зоной безопасности для стартапов Гарри Тан считает проекты, несущие в себе высокие репутационные (PR) или юридические риски для крупных корпораций. Он напоминает, что когда Google впервые разработал диффузионные модели генерации изображений, юристы запретили компании генерировать человеческие фигуры из-за страха судебных исков и скандалов. Именно этот страх повредить своему основному поисковому бизнесу со стороны Google дал OpenAI шанс вырваться вперед.

Сегодня OpenAI сам стал осторожным инкумбентом, что открывает дорогу стартапам в более провокационные сферы. Среди таких примеров участники дискуссии выделяют:

Replica AI — стартап, успешно развивающий виртуальных ИИ-партнеров (бойфрендов и герлфрендов) с глубоким удержанием аудитории.
Character.ai — платформа, пользователи которой проводят часы в день, общаясь с вымышленными персонажами.
Infinity AI — проект, позволяющий превратить любой сценарий в видео с участием известных персонажей.

Как отмечает Джаред Фридман, крупные игроки вроде Meta никогда не внедрят подобные инструменты генерации «дипфейков» в Instagram из-за регуляторных рисков. Тем не менее, мемы нового поколения на основе дипфейков уже становятся вирусными в социальных сетях.

🌟 Личные фавориты: Что больше всего вдохновляет партнеров YC 37:14

В завершение встречи партнеры YC ответили на вопрос пользователя Сандипа из Twitter о том, какие конкретные обновления от ИИ-гигантов их больше всего впечатлили.

Джаред Фридман признался, что его поразила эмоциональность сгенерированного голоса в презентации OpenAI (на примере сказки про роботов и любовь). По его мнению, в отличие от старых монотонных робо-голосов, новый ИИ звучит неотличимо от человека.

Харджа Таггара больше всего вдохновил синхронный голосовой переводчик в реальном времени. Для него это личная история: его супруга родом из Бразилии, её родители не говорят по-английски, а сам Хардж учит португальский медленно. Карманный ИИ-переводчик, по его мнению, способен стереть языковые барьеры во всем мире.

Гарри Тан видит огромный потенциал в унифицированных мультимодальных моделях для сферы робототехники. Он упоминает китайскую компанию Unitree, анонсировавшую двуногого человекоподобного робота всего за $16 000 (хотя доступ к API обойдется еще в $50 000). Развитие сквозных моделей делает появление практических коммерческих роботов вопросом ближайших нескольких лет.

Диану Ху больше всего радует двукратное снижение стоимости вычислений в новых релизах. По её прогнозу, стабилизация алгоритмов и выход на плато эффективности подтолкнут индустрию к созданию специализированных чипов (custom silicon), что позволит запускать мощные нейросети локально на девайсах без постоянного подключения к интернету.