В условиях стремительного развития генеративного искусственного интеллекта компании ищут оптимальные стратегии интеграции больших языковых моделей в бизнес-процессы. В новом выпуске подкаста Eye on AI Крейг Смит обсудил с директором по ИИ-стратегии компании Dialpad Дэном О’Коннеллом, как нейросети трансформируют корпоративные коммуникации. Ключевой темой беседы стал отказ от сторонних API в пользу создания собственного нишевого LLM-стека для автоматизации контакт-центров и глубокой аналитики клиентского опыта.
📞 От Google Voice к собственной ИИ-экосистеме 2:16
Компания Dialpad изначально формировалась как структура с глубокими технологическими корнями. Как отмечает Дэн О’Коннелл, основатели компании около 12 лет назад разработали сервис Google Voice. После того как Google отказалась от коммерциализации этого продукта, команда покинула корпорацию. Первые инвестиции стартап получил от фонда Google Ventures, а в совет директоров вошел Энди Рубин, создатель операционной системы Android.
Пять лет назад Dialpad совершила стратегически важную сделку, поглотив стартап TalkIQ, возглавляемый О’Коннеллом. TalkIQ специализировался на распознавании речи в реальном времени, а его крупнейшим инвестором выступал венчурный фонд Salesforce Ventures. Эта сделка заложила основу для долгосрочной ИИ-стратегии Dialpad.
Сегодня искусственный интеллект пронизывает весь технологический стек компании. Dialpad самостоятельно развивает следующие ключевые направления:
- Собственные алгоритмы распознавания речи (Speech Recognition) для генерации субтитров и стенограмм в реальном времени.
- Технологии обработки естественного языка (NLP) для контентного анализа текстов и определения удовлетворенности клиентов.
- Семантический поиск (Semantic Search), на базе которого работает рекомендательный движок для операторов.
Недавно компания сделала следующий шаг, анонсировав запуск собственной большой языковой модели, интегрированной непосредственно в коммуникационную платформу.
📊 Анализ настроений и трехуровневый мониторинг клиентов 7:22
Одним из ключевых инструментов платформы является анализ настроений (sentiment analysis). Дэн О’Коннелл подчеркивает, что наиболее эффективно эта технология раскрывается в сценариях работы служб поддержки и контакт-центров. Компания выстроила трехуровневую систему оценки клиентского опыта:
- Мониторинг в реальном времени. Система анализирует диалог скользящими 30-секундными окнами. Если клиент начинает раздражаться, оператор или менеджер видят это на графике и могут вовремя скорректировать общение для успешного разрешения проблемы.
- Итоговая оценка удовлетворенности (CSAT). Вместо неэффективных SMS-опросов, на которые, по словам О’Коннелла, отвечает крайне мало людей (причем выборка сильно поляризована — отвечают либо восторженные, либо крайне рассерженные клиенты), ИИ оценивает абсолютно каждый завершенный звонок. Это дает бизнесу объективный массив данных без покупки стороннего ПО.
- Оценка здоровья аккаунта (Account Health). Система связывает воедино несколько контактов одного клиента. Если пользователь звонит трижды за неделю с нарастающим уровнем фрустрации, компания может запустить превентивное обслуживание.
По мнению О’Коннелла, такой подход позволяет играть на опережение и предотвращать уход клиентов к конкурентам или появление негативных отзывов на публичных платформах, таких как Trustpilot и G2 Crowd.
При этом ИИ-модели Dialpad фокусируются исключительно на контексте разговора, а не на интонациях или тоне голоса. Данные специалистов по Data Science компании показывают, что клиенты техподдержки выражают свои нужды прямолинейно и практически не используют сарказм, поэтому контекстуальный анализ обеспечивает высокую точность.
🧠 Своя модель против OpenAI: почему Dialpad отказалась от сторонних API 11:48
Вместо интеграции коммерческих моделей через API (например, решений от OpenAI), Dialpad пошла по пути создания собственного ИИ-решения. О’Коннелл объясняет эту философию стремлением полностью контролировать технологический стек и график инноваций.
По мнению топ-менеджера, использование сторонних API несет в себе серьезные коммерческие риски:
- Непредсказуемость работы. При тестировании ChatGPT команда Dialpad сталкивалась с нестабильным временем отклика: ответ мог прийти за миллисекунду, а мог занять 10 секунд или закончиться ошибкой из-за перегрузки серверов. Для коммерческого B2B-продукта такой пользовательский опыт недопустим.
- Отсутствие глубокой настройки. На этапе проектирования Dialpad у сторонних сервисов не было возможностей глубокого файнтюнинга на специфических датасетах.
- Избыточность и дороговизна. О’Коннелл сравнивает базовые модели вроде GPT с Библиотекой Конгресса — они содержат колоссальный объем общих знаний, который просто не нужен в рамках работы контакт-центра.
По словам О’Коннелла, узкоспециализированная доменная языковая модель требует значительно меньше вычислительных ресурсов для масштабирования, минимизирует галлюцинации и обходится компании гораздо дешевле. Тем не менее Dialpad использует платформу Google Vertex в качестве доверенного партнера для решения ряда специфических задач вне основного контура.
💰 Экономика обучения и инфраструктурные затраты 15:17
Дэн О’Коннелл отказался раскрывать точное количество параметров разработанной модели, мотивируя это тем, что в индустрии закрепилось ошибочное мнение «чем больше модель, тем она лучше». Для клиентов же важны скорость, качество и стоимость.
Главным преимуществом Dialpad является доступ к уникальным обучающим данным. Будучи провайдером связи, компания пропускает через себя миллионы диалогов. Основатель Dialpad еще 5 лет назад предвидел ценность транскриптов для обучения будущих LLM. О’Коннелл подчеркнул жесткие правила работы с данными:
- Сбор данных происходит строго по принципу opt-in (с явного согласия пользователей).
- Вся информация полностью анонимизируется и очищается от персональных данных (PII).
- Платформа соответствует стандартам SOC 2 и HIPAA, предоставляя пользователям полный контроль над удалением их данных.
Внутреннее владение инфраструктурой позволяет Dialpad радикально снижать издержки. Так, базовая функция транскрипции предоставляется клиентам бесплатно. По словам О’Коннелла, себестоимость распознавания речи силами собственной команды составляет всего одну десятую цента (1/10 of one penny). Это делает решение в 10 раз более экономически эффективным и точным, чем использование стороннего софта. Затраты на более сложные генеративные функции закладываются в конечную стоимость продукта для специализированных команд продаж и рекрутинга.
⚡ Эффект ChatGPT и конкуренция с гигантами уровня Zoom 19:54
Несмотря на пятилетний опыт разработки ИИ, появление ChatGPT вызвало в Dialpad резонанс. На следующий день после релиза OpenAI руководство компании провело экстренное совещание. По воспоминаниям О’Коннелла, это был момент осознания, что «игра изменилась».
Команда NLP сначала испытала тревогу касаемо жизнеспособности своих прошлых наработок перед лицом универсальной LLM, а также потенциальных рисков со стороны новых конкурентов, способных мгновенно интегрировать ИИ «из коробки». Однако статус гибкого стартапа позволил Dialpad быстро перестроить дорожную карту.
В противостоянии с крупными игроками, такими как Zoom, Dialpad делает ставку на скорость инноваций. О’Коннелл считает, что Zoom, переживший колоссальный взлет в период пандемии COVID-19, сейчас находится на «вершине холма», и ему есть что терять. В то же время Dialpad остается непубличной частной компанией. Это избавляет менеджмент от давления фондового рынка и позволяет принимать более высокие риски ради технологического лидерства, делая ИИ главным полем битвы.
🔮 Смерть традиционных CRM и будущее структурирования данных 24:07
Развитие генеративного ИИ способно полностью разрушить устоявшийся рынок CRM-систем и потеснить таких гигантов, как Salesforce. О’Коннелл критикует современные CRM за их реактивную природу: менеджер проводит звонок, после чего вручную заносит хаотичные заметки в базу данных.
По прогнозу О’Коннелла, архитектура CRM будущего изменится кардинально:
- Коммуникационные каналы (голос, видео, SMS) станут бесплатными инструментами для сбора сырых данных.
- Встроенные LLM будут автоматически транскрибировать, категоризировать и структурировать информацию без участия человека.
- Сотрудникам полностью запретят ручной ввод данных в CRM — заносить информацию будут исключительно машины, гарантируя идеальную структурированность.
Другим недооцененным свойством больших языковых моделей спикер называет способность превращать огромные массивы неструктурированных данных в четкие аналитические отчеты. О’Коннелл ожидает тотальную трансформацию рынков дата-аналитики и визуализации данных.
Dialpad уже реализует эти принципы: их ИИ не просто генерирует краткое содержание звонка в 4–5 предложений, но и мгновенно извлекает цель звонка (например, запрос возврата или техподдержка), фиксирует финальный результат и формирует список задач (action items) для сотрудников.