Дэн О'Коннелл: «Люди всё ещё хотят покупать у реальных людей»

В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц беседует с директором по искусственному интеллекту и стратегии компании Dialpad Дэном О'Коннеллом. В центре дискуссии — практическое внедрение больших языковых моделей в бизнес-коммуникации, автоматизация рутинной интеллектуальной работы и реальные темпы развития автономных ИИ-агентов. Собеседники подробно разбирают, почему создание собственных специализированных моделей оказывается эффективнее использования готовых коммерческих API и с какими скрытыми вызовами сталкивается индустрия на пути к созданию полноценных цифровых сотрудников.

🌐 Бум искусственного интеллекта и реальность корпоративного сектора 0:00

Несмотря на взрывной рост популярности и внедрения систем искусственного интеллекта, реальные темпы интеграции больших языковых моделей в повседневную интеллектуальную работу пока отстают от самых оптимистичных ожиданий. Ведущий подкаста Нейтан Лабенц приводит наглядный экономический расчет: по розничным ценам один миллиард долларов позволяет купить всего от одного до двух запросов к API GPT-4 для каждого из 8 миллиардов граждан Земли. Даже если этот показатель вырастет в 100 раз, речь по-прежнему будет идти лишь об одном запросе к продвинутой языковой модели на человека в день, что составляет ничтожно малую долю от общего объема выполняемой людьми работы.

Существует несколько ключевых барьеров, сдерживающих моментальную автоматизацию рабочих процессов:

Монополия на качество: Модели уровня GPT-3.5 превратились в общедоступный сырьевой товар (commodity), однако повторить успех GPT-4 долгое время не удавалось практически никому. На западном рынке в этот весовой диапазон смогли войти лишь Anthropic и Google с моделью Gemini, а на восточном — Baidu с системой Ernie 4.0.
Дефицит интеграционных компетенций: Корпорации стремятся сократить расходы на автоматизации рутинных задач, но на рынке критически не хватает специалистов, способных корректно встроить «капризные» языковые модели в автоматизированные рабочие цепочки.
Технологические ограничения агентов: Автономные ИИ-агенты развиваются медленнее, чем предполагалось, из-за глобального дефицита графических процессоров (GPU).

Определенные надежды Нейтан Лабенц связывает с развитием мультимодальных систем, таких как GPT-4 Vision. Поскольку большинство компьютерных интерфейсов изначально создавались под визуальное восприятие человека, появление у ИИ способности «видеть» экран радикально повышает эффективность агентов при снижении стоимости их работы. Тем не менее, разбиение комплексной бизнес-задачи на подзадачи порождает новую проблему: крайне трудно сбалансировать объем контекста, передаваемый ИИ на каждом этапе. Избыток информации делает систему медленной и дорогой, а недостаток — приводит к ошибкам и провалу всей цепочки. Полноценным источником качественных данных для обучения длинноконтекстных моделей могут стать специализированные программные платформы, которые ежедневно фиксируют реальные действия сотрудников и очерчивают пространство возможных шагов для ИИ.

📞 Платформа Dialpad: архитектура и рыночное позиционирование 6:43

Коммуникационная платформа Dialpad представляет собой единый хаб для обработки голоса, видео и текстовых сообщений на любом устройстве в любой точке мира. Система ориентирована как на внутренние корпоративные коммуникации, так и на внешнее взаимодействие — поддержку продаж и клиентского сервиса. Искусственный интеллект интегрирован в архитектуру платформы сквозным образом, обеспечивая три базовых направления: ассистирование в реальном времени, автоматизацию рутины и извлечение аналитических инсайтов.

На текущий момент Dialpad представляет собой устойчивый бизнес с годовым регулярным доходом (ARR) выше 200 миллионов долларов. Клиентская база компании насчитывает более 30 тысяч корпоративных клиентов, распределение между сегментами выглядит следующим образом:

Малый и средний бизнес (SMB): Составляет примерно треть от общего объема клиентов и включает микроорганизации вроде юридических фирм из двух-трех человек.
Средний рынок (Mid-market): Занимает еще одну треть структуры доходов компании.
Крупные корпорации (Enterprise): Оставшаяся треть бизнеса. Платформу используют такие технологические гиганты и известные бренды, как Stripe, Twitter (X), Uber и HubSpot.

По словам Дэна О'Коннелла, значительная часть бизнеса в мире до сих пор использует физические мини-АТС (PBX), размещенные в офисных шкафах с кучей проводов. Клиенты, осознанно переходящие на облачные управляемые сервисы, оказываются наиболее лояльной аудиторией для тестирования передовых ИИ-функций. Они с готовностью соглашаются на автоматическое транскрибирование и анализ тональности речи, минуя юридические споры о законах об аудиозаписи и прослушивании.

В зависимости от роли пользователя, глубина погружения в интерфейс Dialpad различается. Операторы контакт-центров и служб поддержки проводят в приложении весь свой рабочий день, ожидая входящих обращений. Для обеспечения их контекстом Dialpad реализовал глубокую интеграцию со сторонними системами записи и тикетинга: Zendesk, HubSpot, Salesforce, а также специализированным рекрутинговым софтом вроде Greenhouse, куда ИИ может автоматически заносить результаты собеседований.

🧠 Dialpad GPT: почему вертикальная интеграция побеждает базовые API 17:13

Главным технологическим прорывом компании стал выпуск Dialpad GPT — первой специализированной большой языковой модели для бизнеса, обученной на проприетарном датасете объемом более 5 миллиардов минут реальных телефонных разговоров. В переводе на текстовые токены этот объем эквивалентен примерно 500 миллиардам единиц, что составляет около 5% от масштаба обучения базовой версии GPT-4.

Корни этой технологии уходят в 2016 год, когда Дэн О'Коннелл соосновал стартап TalkIQ, создавший один из первых в индустрии движков потокового распознавания речи в реальном времени. В те годы классическая обработка аудиофайла требовала огромного количества времени: тридцатиминутная запись обрабатывалась сторонними сервисами те же 30 минут. TalkIQ перевернул этот подход, создав потоковую систему на базе open-source решений (включая фреймворк Kaldi), что позволило маршрутизировать звонки, определять настроение спикера и давать подсказки прямо по ходу диалога. В 2018 году произошло слияние TalkIQ и Dialpad, чья команда основателей состояла из выходцев из Google, когда-то создавших Google Voice.

Пользователи платформы могут добровольно согласиться (opt-in) на передачу своих данных для обучения моделей, при этом вся информация проходит строгую процедуру деидентификации и очистки от персональных данных (PII). Столкнувшись с первыми коммерческими LLM, команда Dialpad выявила у них ряд критических недостатков:

Ограничение контекстного окна: Необходимость дробить длинный транскрипт беседы на 16 частей, делать промежуточные суммаризации, а затем склеивать их в итоговый отчет, что разрушало общую логику контекста.
Высокая задержка (latency): Неприемлемое время ожидания генерации ответа в условиях живого диалога.
Неподъемная стоимость: Огромные затраты на API при обработке миллионов минут разговоров ежедневно.

В результате Dialpad принял стратегическое решение полностью контролировать свой технологический стек. Компания развернула собственную инфраструктуру на «голом железе» (bare-metal) с массивами графических ускорителей Nvidia A100. Дэн О'Коннелл убежден, что вертикальная интеграция ИИ-стека — от телефонной сети и кодеков до финальной языковой модели — обеспечивает непревзойденную скорость инноваций и колоссальное сокращение издержек при масштабировании. Несмотря на то, что для решения некоторых второстепенных задач Dialpad привлекает модели от OpenAI или Google Vertex (Bison), абсолютное большинство вычислений производится силами собственных моделей, обученных на базе инструментария Nvidia NeMo.

📊 Матрица приоритетов: скорость, масштабируемость и экономика ИИ 31:04

В Dialpad разработана жесткая внутренняя матрица приоритетов для оценки разрабатываемых ИИ-продуктов, которая выглядит следующим образом:

Задержка (Latency): Абсолютный приоритет номер один. Для таких функций, как Agent Assist (подсказки оператору на экране), счет идет на миллисекунды. Если карточка с подсказкой появляется на экране с опозданием в 3 секунды, она полностью теряет свою практическую ценность. Даже секундная задержка критична.
Пропускная способность (Capacity): Способность ИИ-модели стабильно и надежно работать на масштабах огромного одновременного потока корпоративных клиентов.
Финансовая стоимость (Cost): Стоит лишь на третьем месте. По мнению О'Коннелла, если продукт создает реальную и глубокую ценность для конечного пользователя, компания всегда сможет скорректировать цену и защитить свою маржинальность, а оптимизация инфраструктурных затрат — это чисто инженерная задача, решаемая со временем.

Финансовую стабильность для долгосрочных вложений в собственные вычислительные мощности Dialpad обеспечивают привлеченные венчурные инвестиции. Компания привлекла полмиллиарда долларов от ведущих мировых фондов, среди которых Andreessen Horowitz (a16z), Google Ventures и Iconiq Capital.

Важной частью инженерной культуры компании является тотальное внутреннее «догфудинг» (использование собственных продуктов сотрудниками) и сверхбыстрый двухнедельный цикл релизов. Каждые 14 дней модели переобучаются и корректируются на основе постоянного сбора обратной связи от пользователей, которые размечают ИИ-генерации кнопками «хорошо/плохо». Дополнительной сложностью для инфраструктуры Dialpad в облаке Google Cloud являются прогнозируемые пиковые нагрузки: резкие всплески одновременных звонков и встреч происходят строго в начале и в середине каждого часа, что требует тонкой настройки алгоритмов автоматического масштабирования серверов.

🛠️ Практический ИИ: функции, которые меняют бизнес-процессы 39:21

Среди наиболее востребованных и любимых клиентами функций платформы Дэн О'Коннелл выделяет мгновенную текстовую расшифровку звонка и интеллектуальное саммари. На основе неструктурированного текста Dialpad GPT автоматически определяет цель звонка и его финальный исход, избавляя менеджеров от ручной разметки тегов в CRM.

Другой важнейший прорыв — революция в оценке удовлетворенности клиентов (CSAT). Традиционный подход страдает от катастрофически низкой репрезентативности: на отправленные после звонка опросы отвечают лишь единицы, причем только в тех случаях, когда они либо глубоко возмущены, либо безгранично счастливы. Искусственный интеллект Dialpad научился с высочайшей точностью делать выводы об удовлетворенности клиента (inferred CSAT) на основе семантического и контекстного анализа 100% совершенных разговоров, увеличивая объем полезных аналитических данных в сотни раз без малейшего изменения поведения людей.

Техническая точность распознавания речи в Dialpad превышает 90%. Дэн О'Коннелл категорически не согласен с популярным мнением инвесторов и аналитиков о том, что технологии автоматического распознавания речи (ASR) превратились в дешевый стандартизированный товар (commodity):

«Я так не считаю. Мы еще очень далеки от окончательного решения этой проблемы, когда сталкиваемся с акцентами, словами, отсутствующими в словарях, и банальным разным расстоянием от говорящего до микрофона».

Для преодоления этих трудностей Dialpad развертывает индивидуальные кастомные модели распознавания речи для каждого корпоративного клиента. Это критично, поскольку в сфере стартапов и технологического бизнеса компании постоянно выдумывают новые аббревиатуры и причудливые, намеренно искаженные написания брендов. Модель должна распознавать их безошибочно. В планах разработчиков — спуститься на уровень персональных моделей для каждого конкретного сотрудника. О'Коннелл приводит бытовой пример: неточная модель может регулярно путать варианты написания имени Сара (Sarah или Sara), что вызывает искреннее раздражение у пользователей, когда они видят ошибки в автогенерациях.

🔮 Скепсис против оптимизма: когда появятся виртуальные сотрудники? 52:44

В вопросах автоматизации создания контента (например, написания писем по итогам встреч) Dialpad продвигается осторожно. Дэн О'Коннелл признается, что скептически оценивает реальную ценность функций автосоставления писем, которые активно продвигают конкуренты в лице Microsoft Copilot или Zoom AI Companion. По его наблюдениям, генерации часто попадают в «зловещую долину», и пользователь тратит на редактирование и подгонку шаблона под свой стиль ровно столько же времени, сколько ушло бы на написание пары предложений с нуля. Гораздо более перспективным О'Коннелл считает генерацию подсказок о «следующем наилучшем шаге» (next best action) на основе сопоставления успешных исходов сделок в CRM с фразами, звучавшими в звонке.

Нейтан Лабенц отстаивает противоположную, более оптимистичную позицию, опираясь на философию Джеффа Безоса о долгосрочных желаниях клиента: потребитель всегда хочет мгновенный, круглосуточный ответ в удобном формате. Лабенц убежден, что качественный скачок ИИ-моделей уже позволяет делегировать им сложные роли.

Собеседники разошлись в прогнозах относительно будущего голосовых агентов на 2024 год и последующий период:

Позиция Дэна О'Коннелла (Скептицизм): LLM отлично справятся с текстовым отклонением обращений (digital deflection) в чатах — например, со сложными инструкциями по сбросу пароля. Но полноценные голосовые роботы для исходящих продаж не заменят людей в ближайшее время. О'Коннелл не разделяет идею Марка Андриссена о будущем, где «ИИ-бот продавца будет общаться с ИИ-ботом покупателя», поскольку люди предпочитают покупать у реальных людей. В моменты сильного разочарования или проблемы клиенту жизненно необходим эмпатичный человеческий голос.
Позиция Нейтана Лабенца (Оптимизм): В его собственном бизнесе (платформа видеопроизводства Waymark) ИИ-скрипторы и алгоритмы генерации голоса за два года совершили невероятный рывок — от полной профнепригодности в 2021 году до замещения 80–90% человеческих функций. Качество озвучки ИИ уже позволяет выпускать её в эфир крупных телеканалов, и этот прогресс не остановится. Лабенц полагает, что мы часто неосознанно сравниваем ИИ с воображаемым идеалом, забывая, как часто живые сотрудники нарушают регламенты, опаздывают с ответами и совершают глупые ошибки.

В качестве исторической аналогии О'Коннелл указывает на индустрию беспилотных автомобилей: десять лет назад эксперты в Кремниевой долине уверяли, что автономное вождение — это решенная задача. Однако реальное столкновение с хаосом физического мира растянуло этот процесс на десятилетие, и беспилотники Waymo до сих пор сталкиваются со сложнейшей «последней милей» нюансов и проблем. Аналогичная «последняя миля», по его мнению, ждет ИИ и в сфере понимания тонкостей человеческого языка и контекста деловых процессов.

💾 Проблема долгосрочной памяти ИИ и «последняя миля» автоматизации 1:16:55

В завершение дискуссии Нейтан Лабенц формулирует фундаментальную проблему современных систем ИИ на базе архитектуры Transformer — их эпизодическую природу и отсутствие встроенных механизмов долгосрочной памяти. Модели страдают от своеобразной амнезии: они способны удерживать огромные массивы знаний в статических весах и оперировать контекстным окном в рамках одной сессии, но между отдельными рабочими эпизодами образуется институциональный вакуум. Существующие костыли в виде систем RAG (поисковой генерации) пока работают фрагментарно. Без интегрированной динамической памяти ИИ не сможет стать по-настоящему надежным и предсказуемым коллегой, которого достаточно один раз поправить, чтобы он запомнил это навсегда.

Дэн О'Коннелл полностью соглашается с этой технической критикой, подтверждая, что для создания полноценных виртуальных ассистентов ИИ обязан бесшовно связывать контекст прошлых семи или десяти разговоров с конкретным клиентом. Современные CRM-системы не справляются с этой задачей, так как человеческие логи в них обрывочны или отсутствуют вовсе. Единственным надежным фундаментом для ИИ-памяти О'Коннелл считает тотальное аудиокоммуникационное документирование процессов, которое как раз и реализует Dialpad. При этом расширение лимитов контекстных окон в коммерческих моделях уже заметно облегчило жизнь разработчикам: если раньше длинные записи приходилось болезненно резать на куски, теряя связность мысли, то теперь отправка транскрипта единым запросом позволяет получать саммари принципиально иного, монолитного качества.