# Заменят ли роботы операторов? Итамар Арель о будущем голосового ИИ

Источник: https://www.youtube.com/watch?v=OK5E49yp9aw
Канал: Eye on AI
Опубликовано: 24.01.2024

---

Голосовой искусственный интеллект выходит на новый уровень, стремясь полностью заменить устаревшие и ограниченные системы интерактивного голосового ответа (IVR). В свежем выпуске подкаста Eye on AI его ведущий Крейг Смит беседует с Итамаром Арелем — бывшим профессором, а ныне серийным технологическим предпринимателем, чей стартап TenX разрабатывает диалоговых агентов нового поколения. В центре внимания — глубокий технологический разбор архитектуры современных голосовых систем, решение фундаментальной проблемы «катастрофического забывания» нейросетей и трансформация клиентского опыта в крупнейших мировых компаниях.

## 🎓 От академических исследований к автоматизации Макдоналдса
[[JUMP:02:53]]

Путь Итамара Ареля в индустрию коммерческого искусственного интеллекта начался в академической среде, которую он в шутку называет местом, откуда до сих пор «выздоравливает». После защиты докторской диссертации по компьютерной инженерии и краткой стажировки в Стэнфордском университете он в течение 10 лет занимался исследованиями в области машинного обучения в Университете Теннесси. Его научная работа была сосредоточена на обучении с подкреплением и зарождающемся глубоком обучении — причём эти изыскания велись задолго до знаменитой технологической революции 2012 года. Позже, во время академического отпуска, Арель вернулся в Стэнфорд в качестве приглашённого профессора лаборатории ИИ, где совместно с Сильвио Саваресе (впоследствии занявшим пост главного учёного в Salesforce) руководил крупным проектом по заказу оборонного агентства DARPA.

Осознание того, что академические рамки не позволяют увидеть практические результаты исследований в виде реальных продуктов, подтолкнуло учёного отказаться от бессрочного профессорского контракта (tenure) и переехать в Кремниевую долину. Некоторое время он проработал в качестве штатного предпринимателя (EIR) в венчурном фонде AME Cloud Ventures, созданном сооснователем Yahoo Джерри Янгом. В 2017 году Арель основал компанию Apprent, выбрав в качестве ключевой ниши автоматизацию приёма заказов в автомобильных окнах выдачи (drive-thru) крупных ресторанных сетей уровня Starbucks и McDonald's.

Выбор этой рыночной ниши был обусловлен жесткой бизнес-логикой: по статистике индустрии ресторанов быстрого обслуживания (QSR), более 70% всей выручки генерируют именно окна drive-thru. В октябре 2019 года перспективный стартап был поглощен корпорацией McDonald's, руководство которой стремилось создать в Кремниевой долине собственный центр передового опыта в области интеллектуальной автоматизации. На момент сделки команда Apprent насчитывала всего 20 человек, однако под крылом ресторанного гиганта она разрослась до 100 сотрудников, треть из которых составляли специалисты со степенью PhD.

Разработанное командой Ареля решение было успешно развёрнуто в сотнях ресторанов, а первоначальный стратегический план предполагал масштабирование на все 14 000 точек McDonald's в США с последующим выходом на глобальный рынок, насчитывающий около 40 000 ресторанов по всему миру. Тем не менее, в конце 2021 года, после смены генерального директора McDonald's, было принято решение передать специализированное ИИ-подразделение профильному технологическому гиганту, и команда в полном составе перешла в IBM, став частью платформы IBM Watson. Оставив проект новому владельцу, Итамар Арель в начале 2022 года основал новый стартап — TenX, сфокусированный на создании голосового ИИ на базе больших языковых моделей (LLM) для средних и крупных корпоративных клиентов.

## 🧠 Эволюция технологий: почему старые подходы больше не работают
[[JUMP:08:38]]

Технологический ландшафт диалоговых систем кардинально изменился за последние два-три года, сделав прежние решения «доэпохи LLM» устаревшими. Как вспоминает Итамар Арель, ключевой проблемой ранних систем было обеспечение устойчивости компонента понимания естественного языка (NLU). В качестве примера он приводит типичную дорожную ситуацию, когда клиент у окна заказа говорит: «Можно мне комбо номер два... э-э... да, номер два с диетической колой». Человеку очевидно, что это не два разных заказа, а просто прерывистое завершение одной мысли, но старым алгоритмам требовалось трудоёмкое, ручное проектирование шаблонов и сценариев симуляции, чтобы распознать этот «длинный хвост» речевых вариаций.

Современные большие языковые модели полностью решили эту проблему, демонстрируя высокую гибкость «из коробки». По словам Ареля, традиционные интерактивные голосовые меню (IVR), повсеместно используемые авиакомпаниями и отелями, вызывают у клиентов глубокое разочарование своей хрупкостью. В таких системах («нажмите один», «нажмите два») до 90% пользователей предпочитают непрерывно нажимать ноль, чтобы пробиться к живому оператору. Цель технологий TenX — перевернуть эту статистику и добиться того, чтобы 90% звонков успешно обрабатывались автоматизированной системой.

Для достижения этой цели Итамар Арель считает критически важным решение проблемы задержки ответа (latency). Живой человеческий диалог крайне чувствителен к паузам: задержка в 5 секунд между репликами неприемлема. Голосовой агент должен отвечать быстрее чем за 1,5 секунды, а в идеале — укладываться в 1 секунду. Именно жесткие требования к скорости заставили TenX отказаться от использования коммерческих сторонних API в пользу развёртывания собственных моделей. Компания берёт передовые open-source модели и кастомизирует их на собственной инфраструктуре, что позволяет полностью контролировать скорость вывода.

## 🛡️ Борьба с галлюцинациями и нейробиологический подход к дообучению
[[JUMP:13:02]]

В корпоративном секторе существует нулевая толерантность к нейросетевым галлюцинациям, ошибкам в бизнес-логике или некорректным высказываниям голосовых агентов. При этом, по мнению Ареля, специфика B2B-сегмента несколько упрощает задачу по сравнению с универсальными ассистентами вроде Siri или Alexa: 99% звонков в авиакомпанию или отель ограничены узким набором тем (бронирование, отмена, изменение дат). Чтобы гарантировать точность, TenX применяется технология генерации с привлечением поиска (RAG) в сочетании с тонкой настройкой (fine-tuning) моделей под конкретные вертикали — туризм, недвижимость, страхование и финтех.

Однако сам процесс дообучения стандартных моделей таит в себе серьёзную опасность, известную в машинном обучении уже более 30–40 лет под названием «катастрофическое забывание» (catastrophic forgetting). Когда инженеры меняют веса нейросети, пытаясь адаптировать её под специфическую терминологию, модель часто утрачивает накопленные ранее базовые знания, логику и, что самое опасное, защитные слои, внедрённые с помощью обучения с подкреплением на основе отзывов людей (RLHF). В результате дообученная на вполне безобидных диалогах модель может внезапно начать генерировать токсичный или предвзятый контент.

Для преодоления этого барьера исследовательская команда TenX разработала уникальный математический фреймворк, вдохновлённый принципами работы человеческого мозга. Как объясняет Итамар Арель, когда млекопитающие осваивают новый навык, они задействуют лишь определённые участки мозга, в то время как остальные зоны остаются неактивными. Это позволяет человеку научиться ездить на велосипеде, не забывая при этом, как ходить.

Фреймворк TenX анализирует геометрию высокоразмерного пространства представлений внутри нейросети и отслеживает статистику активаций параметров. Система математически определяет, какие именно веса и линейные разбиения пространства (так называемые аффинные преобразования) отвечают за новые доменные данные. Эти целевые веса корректируются, тогда как остальные нейроны маскируются и «замораживаются», гарантируя сохранность базовых знаний и RLHF-защиты. Данная технология сейчас предоставляется клиентам в режиме бета-тестирования на сайте компании.

Стратегия подготовки данных в TenX также комбинирует несколько подходов. Поскольку реальных записей разговоров всегда меньше, чем хотелось бы разработчикам, Итамар Арель считает оптимальным методом использование небольшого ядра реальных диалогов, на основе которых продвинутая модель (например, GPT-4) генерирует обширные массивы синтетических данных, полностью покрывающих целевое распределение.

## 🗣️ Нюансы живой речи и оптимизация голосовой динамики
[[JUMP:22:31]]

Создание по-настоящему живого голосового интерфейса выходит далеко за рамки простой обработки текста. Хотя TenX привлекает специализированных партнеров для решения базовых задач распознавания речи (ASR) и её синтеза (TTS), собственная разработка стартапа сосредоточена на извлечении нефонетической и нетекстовой информации из аудиопотока. По словам Ареля, люди разговаривают совсем не так, как пишут: живая речь изобилует грамматическими ошибками, повторениями и междометиями («э-э», «хм»), с которыми легко справляется даже семилетний ребёнок, но которые традиционно ставят в тупик вычислительные машины.

Оной из сложнейших технических проблем в этой области является «эндпоинтинг» (endpointing) — прогнозирование того, завершил ли человек свою мысль или просто взял паузу, чтобы подумать. Итамар Арель приводит пример из практики бронирования отелей: клиент произносит «Я бы хотел заселиться...», после чего замолкает на три секунды, сверяясь со своим календарем, и лишь затем добавляет «...пятнадцатого числа». Если система начнёт обрабатывать первую половину фразы до окончания паузы, она выдаст ошибочный результат и разрушит контекст диалога.

Не менее важным аспектом является управление ситуациями перебивания (barging), когда клиент начинает говорить поверх реплики робота, а также фильтрация акустических искажений и посторонних шумов. Способность ИИ мгновенно реагировать на прерывание диалога (например, быстро выдать фразу «Выезд у нас в полдень» в ответ на резкий вопрос пользователя) определяет, останется ли разговор естественным или превратится в раздражающий механический монолог.

## 📊 Четыре столпа эффективного голосового AI и бизнес-ценность
[[JUMP:26:18]]

Опираясь на свой пятилетний опыт создания коммерческих речевых систем, Итамар Арель формулирует четыре ключевых условия, необходимых для построения успешного голосового ИИ:

1.  Надежное и гибкое понимание естественного языка (NLU), способное переваривать ломаную речь и плохую грамматику.
2.  Формирование абсолютно точных ответов, что достигается тонкой настройкой семантического пространства эмбеддингов (на базе моделей типа BERT) для корректной работы технологии RAG.
3.  Сквозное дообучение под бизнес-логику конкретного предприятия для полного исключения галлюцинаций.
4.  Глубокая оптимизация динамики речи — управление перебиваниями, эндпоинтингом и подавлением шумов.

Особое внимание в TenX уделяют методологии тестирования голосовых агентов перед их запуском в промышленную эксплуатацию. По мнению основателя компании, полагаться исключительно на проверки сотрудниками внутри офиса нельзя из-за неизбежного возникновения предвзятости. Процесс оценки в TenX разделен на два этапа. Сначала запускается внутренняя автоматизированная система симуляции, где две языковые модели играют роли «виртуального клиента» и «виртуального агента». Модели программируются на то, чтобы перебивать друг друга, задавать неожиданные вопросы невпопад и уходить от темы, что позволяет сгенерировать и проанализировать десятки тысяч диалогов для поиска багов. На втором этапе привлекаются независимые внешние краудсорсинговые платформы, где сотни реальных людей осуществляют тестовые звонки и составляют объективные отчеты.

Обновление работающей системы также происходит циклично: данные реальных разговоров накапливаются и используются для периодического пакетного переобучения, предваряемого масштабным регрессионным тестированием, дабы новые функции не ломали старые паттерны поведения.

Помимо очевидного сокращения операционных издержек, внедрение автоматизированных операторов дает бизнесу колоссальные стратегические преимущества, утверждает Арель. Клиентам больше не приходится проводить по 23 минуты на линии в ожидании ответа оператора, что кардинально улучшает восприятие бренда. Кроме того, машины позволяют проводить полноценное A/B-тестирование речевых скриптов. Если руководству компании необходимо изменить алгоритм ответа на определённый вопрос, внедрить это изменение на тысячах роботов можно мгновенно, тогда как переобучить 5000 живых операторов в колл-центрах по всему миру — задача колоссальной управленческой сложности.

## 🔮 Горизонты будущего: от предсказания токенов к долгосрочному планированию
[[JUMP:39:46]]

Оценивая перспективы развития индустрии на ближайшие пять лет, Итамар Арель выражает крайний оптимизм, подчеркивая, что технологии синтеза и клонирования голоса уже достигли уровня, когда обычный человек не способен отличить искусственную речь от настоящей. По его мнению, многие задачи в сфере разработки голосового ИИ фактически эквивалентны созданию сильного искусственного интеллекта (AGI-complete).

Одним из главных технологических векторов, над которым сейчас работает команда TenX наряду с ведущими мировыми лабораториями, является уход от «близорукой» архитектуры современных LLM. В настоящее время большие языковые модели обучаются исключительно предсказанию следующего токена (слова). Цель инженеров нового поколения — научить ИИ планировать свои реплики и действия на несколько шагов вперёд, оптимизируя диалог на долгосрочном горизонте планирования.

Эта концепция базируется на обучении с подкреплением и решении сложной математической задачи «распределения вознаграждения» (credit assignment problem) — способности ретроспективно оценивать, какие именно действия привели к успешному или провальному финалу диалога, чтобы закрепить эффективные речевые паттерны. Вкупе с развитием мультимодальных моделей и наметившимся трендом на перенос вычислений с дорогостоящих графических процессоров (GPU) на более доступные центральные процессоры (CPU) для снижения себестоимости, индустрию ждёт масштабная волна качественных изменений.