Будущее речевого ИИ: почему СТО Speechmatics призывает отказаться от обучения с учителем

Появление полноценного голосового ИИ-ассистента, способного понимать человека с полуслова и поддерживать живой диалог без раздражающих задержек, долгое время оставалось прерогативой научной фантастики. В рамках подкаста Machine Learning Street Talk ведущий Тим побеседовал с Уиллом, техническим директором (CTO) британской компании Speechmatics, которая уже более десяти лет находится на передовой разработки технологий автоматического распознавания речи (ASR). Они подробно обсудили, почему современная индустрия больших языковых моделей движется к технологическому тупику, в чём заключаются фундаментальные архитектурные изъяны популярной модели Whisper от OpenAI и как инновационные методы обучения без учителя могут наконец-то воплотить в жизнь концепцию речевого интерфейса в стиле Star Trek.

🤖 Демо-версия Flow: Шаг навстречу ИИ-ассистенту из Star Trek 0:00

В самом начале встречи Уилл продемонстрировал работу новейшего диалогового ассистента компании под кодовым именем Flow (персонаж в демо-версии получил имя Хамфри). В отличие от большинства существующих решений, Flow способен на лету осуществлять динамическую диаризацию — процесс, при котором алгоритм автоматически определяет границы речи разных спикеров, вычисляет их индивидуальные эмбеддинги и мгновенно интегрирует имена собеседников в контекст беседы. В ходе демонстрации ассистент безошибочно определил, что в комнате находятся Уилл и Тим, и сразу стал обращаться к ним по именам.

Под капотом демонстрационной системы Flow работает связка из проприетарных речевых технологий Speechmatics и сторонней большой языковой модели (LLM) — либо Llama 3 от Meta, либо GPT-4 от OpenAI. Собеседники затронули актуальный для индустрии вопрос задержки ответа (latency). Разработчики французской голосовой модели Moshi утверждают, что ключевым бутылочным горлышком систем разговорного ИИ является именно сверхнизкий пинг в районе 300 миллисекунд. Однако, по мнению Уилла, скорость ответа не является главной проблемой. Гораздо важнее то, насколько естественно протекает беседа и каков уровень «интеллекта» модели. Как утверждает СТО Speechmatics, для пользователя комфортнее иметь слегка замедленный, но стабильный и предсказуемый опыт взаимодействия, поэтому инженеры компании искусственно выравнивают задержку до фиксированных 1,2 секунды, чтобы избежать хаотичного перебивания собеседника.

Развертывание подобных систем в реальном времени всегда сопряжено с техническими трудностями. При реализации интерфейсов типа «текст-в-речь» (TTS) разработчикам приходится программно отключать микрофон устройства во время генерации аудиоответа, чтобы избежать акустической петли обратной связи. Уилл признает, что в долгосрочной перспективе индустрии необходимы полноценные двунаправленные (полнодуплексные) сквозные модели, но текущие эвристики Speechmatics уже сейчас позволяют добиться безупречного качества работы без разрушения базовых весов коммерческих LLM.

🧠 Нейросимволический подход и тайны машинного мышления 6:40

Обсуждая фундаментальные основы искусственного интеллекта, Уилл признался, что долгое время считал себя ортодоксальным коннекционистом — сторонником идеи, что чистые нейронные сети способны решить любую задачу. Однако опыт работы над речевыми движками заставил его пересмотреть свои взгляды в пользу нейросимволического ИИ, сочетающего статистическую мощь глубокого обучения со строгими правилами символических вычислений.

Ярким примером такого гибридного подхода является декодирование в задачах ASR, реализуемое с помощью взвешенных конечных преобразователей (WFST — Weighted Finite State Transducers). Эти графовые структуры данных позволяют выполнять эффективный вероятностный поиск по путям, жестко ограничивая пространство вариантов рамками правил и грамматики естественного языка. Подобные алгоритмы незаменимы при проектировании предсказуемых коммерческих API или реализации поиска по дереву Монте-Карло (MCTS) в прикладных задачах.

В вопросах достижения сильного искусственного интеллекта (AGI) и реализации способностей к долгосрочному планированию позиции собеседников несколько разошлись:

Позиция Уилла: Способность к планированию и логическому рассуждению (reasoning) способна неявно зародиться внутри чистых коннекционистских архитектур, если предсказательные задачи будут обучаться на правильных уровнях абстракции представлений. Сложные программы планирования могут быть закодированы внутри сверхплотных векторов, которые затем просто разворачиваются во времени.
Контраргумент Тима: Статистический подход действительно позволяет найти правильную программу в пространстве решений, однако системе жизненно необходима явная оценочная функция. Без нее ИИ может лишь вероятностно выбирать путь рассуждения, но никогда не сможет верифицировать его и доказать его абсолютную математическую корректность.

Уилл парировал этот аргумент аналогией с человеческим мозгом: люди тоже не имеют стопроцентных гарантий правильности своих действий, а лишь опираются на накопленный эмпирический опыт взаимодействия со средой. В качестве примера из академической среды Уилл привел работу Йошуа Бенжио над генеративными сетями потоков (GFlownets), реализующими схожий вероятностный принцип.

Собеседники согласились, что даже когда человек задействует так называемое «Системное мышление 2» (медленное, осознанное рассуждение, например, при прохождении тестов на IQ или задач ARC Франсуа Шолле), он не производит полную верификацию. Вместо этого включаются антропоморфные критерии — выбор наименее сложного и наиболее эстетически привлекательного паттерна. Человеческий процесс размышления (ponder loop) дискретен: мы колеблемся, итерируем мысли и в какой-то момент останавливаемся (halt), тогда как классические нейросети выдают ответ мгновенно, полагаясь на чистую интуицию. В будущем речевой ИИ должен ежесекундно поглощать кадры из окружающей среды, обновляя свои внутренние высокоуровневые убеждения, даже если в данный момент он выбирает тактику молчания.

🔄 Архитектура диалогового ИИ: От каскадов к сквозному мультимодальному анализу 12:01

Современный рынок голосовых интерфейсов практически полностью построен на каскадном (композитном) подходе. Разработчик вынужден самостоятельно собирать цепочку из разрозненных сервисов:

Поток сырых аудиоданных (например, в формате PCM 16 bit Little Endian) отправляется на сервер распознавания речи (ASR).
Сервер возвращает JSON-пакеты с текстом и временными метками слов.
Текст передается в LLM для генерации ответа.
Текстовый ответ озвучивается через систему синтеза речи (TTS).

Подобная архитектура лишена метакогнитивных функций. Уилл убежден, что качественный прорыв произойдет лишь тогда, когда индустрия перейдет к сквозным (end-to-end) мультимодальным моделям, способным извлекать субвордовые абстракции напрямую из аудиосигнала без промежуточного перевода в текст.

Интересным промежуточным решением Тим назвал гибридный подход: использование низкозадержечного каскадного стриминга для мгновенной реакции в сочетании с ретроспективной многомасштабной постобработкой с помощью мультимодальной LLM. Такая модель может анализировать не только звук, но и видеопоток с камеры (например, отслеживая движения губ пользователя, что, согласно литературе по лип-ридингу, дает около 56% точности), логи нажатия кнопок в интерфейсе и пространственные данные с акселерометров AR-очков. Уилл горячо поддерживает эту концепцию, отмечая, что Speechmatics активно движется в сторону обучения нейросетей на таких комплексных незагрязненных потоках данных, идентичных человеческим органам чувств.

⚖️ Экономика инференса и дилемма масштабирования LLM 17:27

Как практикующий специалист, Уилл выразил скепсис по поводу доминирующей на рынке «гипотезы масштабирования» (scaling hypothesis), утверждающей, что простое увеличение вычислительной мощности, объема параметров и терабайтов интернет-текста способно привести к созданию полноценного интеллекта. Перенос сроков релиза GPT-5 от OpenAI, по мнению гостя, может служить ранним сигналом насыщения и замедления прогресса в рамках текущей парадигмы предсказания следующего токена.

Текст из интернета исчерпал свою статистическую значимость. И хотя генерация синтетических данных помогает сгладить углы в узких прикладных задачах — например, при форматировании таблиц или доказательстве математических теорем — она не способна породить истинную креативность и способность изобретать принципиально новое. Уилл процитировал исследователя Райана Гринблатта, который точно подметил терапевтический эффект масштабирования:

«Вы всегда можете заставить глупую систему аппроксимировать умную, если просто забросаете её колоссальным объемом данных».

Коммерческая реальность заставляет ИТ-директоров смотреть на экономику инференса и стоимость вычислений. В Speechmatics сознательно отказались от обучения гигантских моделей, сфокусировавшись на архитектурах размером строго до 10 миллиардов параметров. Для оптимизации затрат компания предлагает клиентам гибкую систему тарифных планов (operating points):

Базовая модель: Обладает высокой пропускной способностью, экономична в вычислениях, имеет низкую стоимость доллара в пересчете на уровень ошибок (WER).
Премиальная модель (Enhanced): Бескомпромиссное решение, оптимизированное исключительно под достижение максимальной точности распознавания любой ценой.

🥊 Битва титанов: Почему Whisper проигрывает в эффективности 23:08

На рынке речевых технологий существует расхожее мнение, будто появление мультимодальных систем уровня GPT-4o или бесплатной open-source модели Whisper от OpenAI полностью закроет потребность в специализированных игроках вроде Speechmatics. На этот выпад Уилл отвечает лаконично: «Просто запустите тесты Word Error Rate (уровень ошибок в словах) и посмотрите на сухие цифры».

Главная концептуальная проблема Whisper заключается в том, что это классическая сквозная модель с обучением со знакомством (supervised learning), обученная на 600 000 часов зашумленных аудиозаписей и текстовых парсеров из интернета. Из-за того, что акустические характеристики и языковая модель слиты в одном пространстве внимания, Whisper катастрофически страдает от галлюцинаций.

Тим поделился результатами внутреннего эксперимента: они синтезировали последовательность чисел от 1 до 10 000 и пропустили ее через Whisper V2 — модель систематически галлюцинировала и пропускала целые численные блоки. Движок Speechmatics решает эту проблему иначе: сначала распознается чистая фонетическая/речевая форма, поверх которой накладывается строгая детерминированная функция обратной нормализации текста (ITN — Inverse Text Normalization), что гарантирует идеальное отображение сложных конструкций вроде числа $\pi$ (3.141).

С точки зрения sample efficiency (эффективности выборки), Whisper демонстрирует ужасающие показатели. Для достижения сопоставимого качества распознавания английского языка supervised-модели от OpenAI требуется в 100 раз больше размеченных данных, чем системе, построенной по принципу Speechmatics: мощная базовая модель, обученная без учителя (self-supervised) на сыром аудио, со сжатым контролируемым supervised-слоем поверх нее. Обучение без учителя позволяет улавливать тончайшие структуры реального мира, обеспечивая недостижимый для Whisper уровень генерализации на редких языках, где физически невозможно собрать миллионы часов качественных параллельных транскриптов.

🎯 Проблема «коктейльной вечеринки» и суровая реальность бенчмарков 28:05

Несмотря на колоссальный шаг вперед по сравнению с индустрией десятилетней давности, когда уровень ошибок составлял неприемлемые 35% (сегодня этот показатель находится в районе 5%), у современных ASR-систем остаются жесткие физические ограничения. Главное из них — так называемый «эффект коктейльной вечеринки» (проблема перекрестного разговора или crosstalk).

Человеческий мозг способен мгновенно факторизовать сложный аудиосигнал, вычленяя конкретный голос из гула толпы и удерживая на нем фокус. Нейросети пока так не умеют. Зачастую Speechmatics успешно изолирует доминирующего спикера в шумном кафе лишь благодаря слепым артефактам из обучающей выборки, а не из-за осознанного архитектурного разделения источников звука. На рынке мобильных устройств эту проблему пытаются решать на аппаратном уровне: например, в API операционной системы Android встроена функция двукратного микрофонного зума (adaptive beamforming), которая программно сужает диаграмму направленности аудио вслед за оптическим зумом камеры смартфона. Это критически важно для создания слуховых аппаратов нового поколения, ведь от нарушений слуха сегодня страдает каждый седьмой человек на планете.

Отдельной критике Уилл подверг академические и корпоративные бенчмарки (например, тесты от Three Play Media). В мире ИИ давно действует закон Гудхарта: как только метрика становится целью, она перестает быть хорошей метрикой. Разработчики начинают неосознанно подгонять архитектурные решения под особенности тестовых наборов данных, из-за чего происходит скрытая утечка информации (text leakage). Тестовые выборки неизбежно «гниют» со временем. Кроме того, методики подсчета WER сильно разнятся: Speechmatics принципиально отдает verbatim-транскрипт (дословный, со всеми словами-паразитами, повторами и вздохами), тогда как конкуренты часто используют агрессивную текстовую очистку, искусственно занижая уровень ошибок на бумаге, но теряя важный эмоциональный контекст живой речи.

🔒 Этика речевых технологий: Приватность данных и инклюзивность 1:02:40

Голосовые данные с биометрической точки зрения представляют собой куда более чувствительную информацию, нежели текстовые промпты, которые пользователи отправляют в веб-интерфейс ChatGPT. Уилл отмечает, что OpenAI во многом изменила границы дозволенного в обществе, используя метод «варения лягушки на медленном огне»: пользователи постепенно привыкли к тому, что их данные оседают на серверах корпораций для последующего переобучения моделей.

Философия Speechmatics строится на строгой этической позиции:

Компания развертывает исключительно stateless-сервисы (без сохранения состояния), полностью уничтожая аудиофайлы клиентов сразу после отдачи транскрипта.
Бизнес сознательно отказывается от обучения на данных пользователей, даже при наличии их явного юридического согласия, чтобы сохранять статус доверенного enterprise-провайдера.

Второй важный этический аспект — инклюзивность алгоритмов. Исторически коммерческие системы распознавания лиц и речи демонстрируют сильное смещение (bias) в пользу доминантных групп, что было наглядно доказано в знаменитом исследовании Тимнит Гебру Gender Shades. Недопредставленные группы населения, люди с дефектами речи или специфическими региональными акцентами часто оказываются за бортом технологического прогресса.

Многие разработчики пытаются решать эту проблему искусственным оверсэмплингом (избыточным добавлением) редких классов в выборку, что неизбежно ведет к деградации качества распознавания основного языка. Уилл заявляет, что у него другая ментальная модель: если вам нужно вобрать в себя более широкое языковое распределение, не нужно портить данные — просто добавьте нейросети свободных параметров, чтобы она могла физически впитать эту сложность без ущерба для базовых сценариев.

🚀 От чердака в Кембридже до монументальной ИТ-инфраструктуры 1:30:31

В завершение беседы Уилл поделился вдохновляющей историей становления компании. В 2013 году, будучи студентом, он загорелся идеей глубокого обучения и опубликовал в ныне покойной социальной сети Google+ крик о поиске стажировки в Кембридже. На публикацию неожиданно откликнулся Тони Робинсон — легендарный британский ученый, стоявший у истоков применения рекуррентных нейросетей для задач речевой аналитики.

Уилл забросил магистратуру и переехал в Кембридж, а первыми «офисными пространствами» будущей технологической компании стал душный чердак в доме Тони Робинсона, под столами на котором гудели несколько кастомных серверов. Гость с улыбкой вспоминает то хаотичное время, когда фреймворков уровня PyTorch или систем логирования весов вроде Weights & Biases не существовало в природе — весь ML-код приходилось писать вручную на C++ и чистом CUDA.

Уилл рассказал забавную стартап-историю, едва не стоившую ему карьеры:

«Я запустил масштабное обучение языковой модели, которое непрерывно шло уже пятые сутки. Из-за неопытности я забыл написать код для сохранения промежуточных чекпоинтов в C++. В один из дней Тони поднимается ко мне на чердак с подносом кофе, решает включить электрический чайник в ту же розетку... Сеть вышибает, сервера мгновенно гаснут. Пять дней вычислений коту под хвост, пришлось начинать все с полного нуля».

Сегодня масштаб Speechmatics несопоставим с «чердачным» периодом: штат компании насчитывает 120 человек, из которых 55 заняты в инженерном департаменте, а 22 специалиста сфокусированы исключительно на исследованиях в области машинного обучения. Продуктовые обновления выходят на еженедельной основе. Перед отправкой в продакшн каждый релиз-кандидат проходит жесткое зеркалирование (mirroring) на реальном «живом» трафике в изолированном контуре, поскольку клиенты со всего мира регулярно присылают аудиофайлы в таких экзотических конфигурациях, которые невозможно воспроизвести внутри синтетических юнит-тестов.

Главной инфраструктурной гордостью Уилла на посту СТО стало успешное внедрение монорепозитория (monorepo). Руководствуясь фундаментальным инженерным принципом «если вещи движутся вместе, они должны жить вместе», он полностью ликвидировал хаос из десятков разрозненных репозиториев и устаревших Debian-пакетов. Несмотря на необходимость значительного повышения DevOps-зрелости и закупку дополнительных вычислительных мощностей под непрерывную интеграцию (CI), этот шаг радикально ускорил сборку финальных артефактов и вывел стабильность глобально распределенной инфраструктуры Speechmatics (сервера которой развернуты в ЕС, США и Австралии) на принципиально новый уровень.