Как создать вертикального ИИ-агента на миллиард долларов: Опыт CaseText

Выпуск нового поколения больших языковых моделей спровоцировал тектонический сдвиг на рынке программного обеспечения, открыв эпоху вертикальных AI-агентов с миллиардным потенциалом. В рамках подкаста «The Light Cone» руководители венчурного фонда Y Combinator Гарри Тан (Garry Tan) и Джаред общаются с основателем стартапа CaseText Джейком Хеллером, совершившим рекордный для индустрии экзит. В центре дискуссии — уникальный опыт трансформации компании, секреты глубокого «режима фаундера» и практические методы создания сверхуспешных продуктов на базе искусственного интеллекта.

🚀 Феноменальный экзит CaseText: От идеи до $650 млн 0:28

Индустрия корпоративного софта переживает крупнейшую волну трансформации со времен создания баз данных. Как отмечает президент и генеральный директор Y Combinator Гарри Тан (Garry Tan), стартап CaseText, развивавшийся в юридической нише более 11–12 лет, показал беспрецедентную динамику коммерциализации технологий искусственного интеллекта. За первые десять лет своего существования проект прошел путь от нуля до оценки в $100 млн, однако после релиза модели GPT-4 ситуация изменилась коренным образом. Всего за два месяца активных переговоров компания вышла на сделку по поглощению медиагигантом Thomson Reuters, которая завершилась полной ликвидной выплатой в размере $650 млн.

Этот кейс стал флагманским примером зарождающегося тренда вертикальных ИИ-агентов (Vertical LLM Agents). По оценкам команды Y Combinator, в последнем батче акселератора (S24) уже насчитываются десятки компаний, создающих узкоспециализированных ИИ-помощников под конкретные индустрии. Джейк Хеллер признает, что в этой долгой истории присутствовал фактор стратегического везения: его команда годами глубоко инвестировала в технологии обработки естественного языка (NLP) и машинного обучения, благодаря чему установила тесные связи с ведущими исследовательскими лабораториями, включая OpenAI. Это позволило CaseText получить ранний доступ к прототипам GPT-4 под строгим NDA за несколько месяцев до официального публичного релиза.

🏛️ Десятилетний «лабиринт»: Почему краудсорсинг провалился в юридической сфере 3:45

Путь к успеху CaseText не был линейным — основатели провели целое десятилетие в так называемом «лабиринте идей», тестируя различные продуктовые гипотезы. Джейк Хеллер, будучи профессиональным юристом с бэкграундом в области компьютерных наук, создал этот продукт для решения собственной боли. По его воспоминаниям, работая в юридической фирме в 2012 году, он сталкивался с колоссальным технологическим разрывом: на своем новом iPhone с помощью Google он мог за минуту найти расписание киносеансов или ближайший тайский ресторан, но поиск критически важной улики для оправдания клиента или ключевого судебного прецедента в рамках иска на миллиард долларов требовал пяти дней непрерывной работы до 5 часов утра. До цифровизации юристам приходилось буквально неделями просиживать в подвалах, вручную перебирая коробки с архивными документами таких гигантов, как Pfizer или Google, для выявления признаков мошенничества.

Первая серьезная попытка CaseText масштабировать бизнес строилась вокруг концепции пользовательского контента (UGC). Создатели вдохновлялись примерами Wikipedia, Stack Overflow и GitHub. Идея заключалась в том, чтобы заставить практикующих юристов бесплатно аннотировать судебные дела и делиться экспертизой. Однако эта стратегия обернулась полным провалом. Как объясняет Хеллер, аудитории этих платформ кардинально различаются:

Типичный редактор Wikipedia обладает большим запасом свободного времени и мотивирован альтруизмом.
Юристы работают по модели почасовой оплаты (billable hours), их время экстремально дорого, и они постоянно находятся в состоянии жесткого дефицита временных ресурсов.

Столкнувшись с тупиком, компания переключилась на автоматизацию. Они внедрили рекомендательные алгоритмы, аналогичные механизмам рекомендаций в Spotify и Pandora. Система анализировала сеть цитирования: загружая черновик юридического документа, адвокат получал подсказки о том, какие важные прецеденты он упустил из виду. Тем не менее, по признанию Хеллера, до внедрения больших языковых моделей все эти инновации оставались лишь инкрементальными улучшениями. В условиях, когда успешные юристы зарабатывают по $5 млн в год, они категорически не хотят менять привычные рабочие процессы ради незначительного роста эффективности, опасаясь любых рисков. Ситуация изменилась только с запуском ChatGPT, когда весь рынок внезапно осознал неизбежность фундаментальной трансформации.

⚡ Революция GPT-4: Перевод 120 человек на новый продукт за 48 часов 12:45

Момент истинного достижения соответствия продукта рынку (Product-Market Fit) Джейк Хеллер описывает через призму классической статьи Марка Андриссена «The Only Thing That Matters». Андриссен утверждал, что при реальном PMF серверы компании падают от перегрузки, вы не успеваете нанимать сотрудников поддержки и продаж, а пресса сама ищет встреч. Именно это произошло с CaseText после создания Co-Counsel — их ИИ-ассистента на базе GPT-4. Продукт моментально попал в фокус внимания CNN и MSNBC, а входящий поток клиентов стал неуправляемым.

Концепция Co-Counsel, сформулированная буквально за одни выходные после первого знакомства с возможностями GPT-4, предполагала создание полноценного виртуального сотрудника фирмы. Ему можно было поручить задачи топ-уровня:

Изучить миллион документов и выявить скрытые доказательства мошенничества за пару часов.
Проанализировать тысячи судебных дел и составить структурированный юридический меморандум.

Для реализации этого видения руководству пришлось пойти на беспрецедентный шаг. В течение 48 часов после тестирования новой модели ИИ было принято решение полностью остановить все текущие проекты компании и перенаправить 100% человеческих ресурсов на создание Co-Counsel. На тот момент в штате CaseText работало около 120 человек. В условиях строжайшей секретности вся команда буквально жила на рабочем месте в течение нескольких месяцев перед официальным запуском, стремясь максимально оторваться от конкурентов. Ранние тесты, проводимые с клиентами под расширенным NDA, вызывали у юристов шок: задачи, занимавшие целый рабочий день, выполнялись алгоритмом за полторы минуты.

👑 «Режим фаундера»: Как преодолеть скепсис команды и инвесторов 15:08

Радикальный разворот работающего бизнеса сопряжен с огромным внутренним сопротивлением. Джейк Хеллер подчеркивает, что за 10 лет блужданий по «лабиринту идей» сотрудники привыкают к частым изменениям курса, и кредит доверия к фаундеру постепенно истощается. Ситуация осложнялась тем, что CaseText на тот момент не была стагнирующим проектом: компания стабильно росла на 70–80% в годовом исчислении и генерировала от $15 млн до $20 млн регулярного годового дохода (ARR). Продажники, маркетологи и часть членов совета директоров недоумевали, зачем ставить под угрозу стабильный бизнес ради неизученной технологии.

В этот критический момент Хеллер включил «режим фаундера» (founder mode), сделав ставку на лидерство через личный пример:

Собственная разработка прототипа. Поскольку жесткие условия NDA от OpenAI на первом этапе распространялись исключительно на Джейка и его сооснователя, Хеллер лично открыл среду разработки (IDE) и написал первую рабочую версию Co-Counsel своими руками.
Шоковая терапия для топ-менеджмента. Приехав на запланированный исполнительный оффсайт, где директора ожидали обсуждения планов продаж на квартал, Хеллер отменил всю повестку и просто продемонстрировал работающий на его ноутбуке прототип.
Демонстрация клиентского опыта. Чтобы окончательно сломить скептицизм инженеров и сейлзов, их начали подключать к Zoom-звонкам, где консервативные клиенты в реальном времени переживали экзистенциальный кризис от увиденного.

По рассказам Хеллера, типичной реакцией старших партнеров юридических фирм на демонстрацию возможностей Co-Counsel было нервное заявление: «Похоже, мне пора поскорее выходить на пенсию, чтобы не иметь с этим дела».

🛠️ Разрушение мифа о «GPT-обёртках»: Архитектура и бизнес-логика Co-Counsel 20:47

На рынке широко распространено скептическое мнение, будто большинство современных ИИ-стартапов представляют собой простые, легко воспроизводимые «обертки» поверх API от OpenAI. Джейк Хеллер категорически опровергает этот тезис на примере Co-Counsel. Реальное решение сложной прикладной задачи требует выстраивания многоуровневой архитектуры приложения, где сама языковая модель — лишь один из компонентов.

Функционал Co-Counsel разделен на так называемые «навыки» (skills). Создавая их, разработчики моделировали поведение лучшего в мире юриста, разбивая глобальную задачу на последовательность мелких шагов (цепочку из 12–24 отдельных промптов):

Трансформация запроса пользователя на естественном языке в комплексные поисковые запросы со специальным синтаксисом (схожим со SQL).
Поиск по закрытым проприетарным базам законодательства и интеграция с внутренними системами управления документами (DMS) клиента.
Считывание и анализ результатов (до 100 документов на каждый поисковый запрос), ведение структурированных заметок, выделение инсайтов и автоматическое формирование драфта итогового меморандума.

Огромный пласт интеллектуальной собственности (IP) стартапа лежит в области предобработки данных. Юридические документы часто содержат рукописные пометки, сканируются под углом или сжимаются методом печати «четыре страницы на одной». Стандартная LLM не способна корректно прочитать такой текст по порядку (слева направо вместо логических блоков) без продвинутых систем оптического распознавания символов (OCR) и жесткой бизнес-логики, учитывающей все краевые случаи. Хеллер сравнивает этот этап развития ИИ с зарождением классического SaaS: в свое время такие гиганты, как Salesforce, по сути, являлись «обертками над SQL-базами данных», но их ценность определялась именно кастомной бизнес-логикой и интеграциями. Базовый чат в ChatGPT решает задачу клиента с точностью около 70%, за что пользователи готовы платить $20 в месяц. Полноценное вертикальное приложение доводит точность до 100%, что позволяет обоснованно продавать подписку за $500 или $1000 в месяц.

🧠 От 10-го перцентиля до OpenAI o1: Борьба с галлюцинациями и мышление «Системы 2» 31:44

В юридической практике критически важна абсолютная достоверность фактов — малейшая галлюцинация или ложное допущение могут разрушить дело в суде. Джейк Хеллер признает, что ранние версии языковых моделей (GPT-2, GPT-3 и даже GPT-3.5) были абсолютно непригодны для серьезной работы: они генерировали правдоподобный английский текст, но выдумывали факты. В качестве примера приводится исследование, согласно которому модель GPT-3.5 сдавала американский адвокатский экзамен (Bar Exam) на уровне худших 10% тестируемых. Модель GPT-4, протестированная на совершенно новом массиве вопросов, показала результат на уровне лучших 90%.

Для достижения промышленной точности команда внедрила жесткую методологию разработки через тестирование (Test-Driven Development, TDD) в процесс проектирования промптов. Для каждого отдельного шага в цепочке промптов инженеры писали батареи из тысяч тестов с «золотым стандартом» эталонных ответов. Хеллер отмечает, что в промпт-инжиниринге подход TDD критически важен в 10 раз сильнее, чем в обычном программировании: пытаясь исправить одну инструкцию под конкретную ошибку, вы рискуете мгновенно сломать логику в сотнях других сценариев. Только если промпт стабильно проходит выборку из 100 сложных тестов, можно гарантировать его безотказность на массиве из 100 000 реальных пользовательских запросов. Фаундерам, которые занимаются разработкой «на чистом доверии и вайбах» (vibes only prompt engineering) без создания системы эвалюации, Хеллер пророчит быструю потерю доверия со стороны клиентов.

Обсуждая новейшую модель OpenAI o1, Гарри Тан и Джейк Хеллер сходятся во мнении, что индустрия совершает переход от быстрого, интуитивного паттернового мышления («Система 1» по Даниэлю Канеману) к глубокому аналитическому планированию («Система 2»). CaseText уже тестирует o1 на своих самых сложных задачах. В одном из внутренних тестов разработчики взяли реальный 40-страничный юридический документ и слегка изменили цитату, добавив частицу «не», что полностью перевернуло смысл прецедента. Все предыдущие LLM заявляли, что документ составлен идеально. Модель o1 «задумалась» примерно на минуту, проанализировала контекст и выдала точную локализацию ошибки, указав на некорректную подмену понятий. По мнению Хеллера, это открывает феноменальные возможности: теперь инженеры могут промптить модель не просто на предмет выдачи правильного ответа, а напрямую обучать её правильным паттернам мышления, закладывая в внутренний монолог алгоритма экспертизу лучших адвокатов страны.

🔮 Будущее вертикальных AI-агентов: Миллиардные возможности SaaS 35:07

Опыт CaseText служит важным ориентиром для нового поколения технологических предпринимателей. Джейк Хеллер убежден, что в ближайшие годы мы увидим глубокую модернизацию множества консервативных отраслей, аналогичную той, что произошла в юриспруденции. Компании ежегодно тратят миллионы долларов на рутинные процессы, связанные с ручным анализом документов и компиляцией данных. ИИ-агенты, способные взять на себя хотя бы 80% этой когнитивной нагрузки, несут в себе колоссальную экономическую ценность, за которую B2B-рынок готов платить огромные деньги.

В завершение беседы спикеры призвали стартаперов не поддаваться скептическим стереотипам о несовершенстве или галлюцинациях нейросетей. Существует понятный, алгоритмический инженерный путь преодоления этих барьеров через тесты, эвалюации и выстраивание сложной бизнес-логики вокруг моделей. По прогнозам Хеллера, внедрение ИИ не уничтожит рабочие места профессионалов, а лишь избавит их от изнурительной рутины, сделав их повседневную деятельность гораздо более стратегической, творческой и интересной.