Голосовые интерфейсы переживают второе рождение: от примитивных команд «Siri, поставь таймер» технологии перешли к полноценным переговорам, эмоциональной поддержке и управлению сложными бизнес-процессами. В этом выпуске подкаста The Cognitive Revolution Оливия Мур и Аниш Ачарья, партнеры венчурного фонда a16z, обсуждают, как изменился стек технологий голосового ИИ, почему стартапы в этой нише растут быстрее традиционных SaaS-решений и что мешает технологическим гигантам вроде Apple и Google возглавить эту гонку.
🔍 Методология «скаутов ИИ»: как находить тренды 3:38
Оливия Мур и Аниш Ачарья называют себя «скаутами ИИ» — специалистами, которые ищут сигналы будущего на периферии пользовательского опыта. По словам Оливии Мур, для поиска «альфы» (скрытых возможностей) инвестору необходимо быть «хронически онлайн», но следить не только за техническими анонсами в X (Twitter), но и за поведением обычных людей на YouTube и в TikTok .
Инвестиционные тезисы и методы поиска:
- YouTube как главный индикатор: По данным Оливии Мур, YouTube является мобильным приложением №1 и вторым сайтом в мире по посещаемости. Для многих ИИ-сервисов YouTube выступает основным источником социального трафика .
- «Взлом» моделей пользователями: Первым сигналом востребованности технологии часто становится «офф-лейбл» использование. Оливия Мур отмечает, что когда подростки начинают массово пытаться заставить ChatGPT быть их терапевтом, другом или тренером — это явный признак того, что рынку нужен отдельный специализированный продукт .
- Личный опыт: Аниш Ачарья подчеркивает важность использования продуктов (Deep Research, DeepSeek, Korea) лично. По его мнению, удивительно мало профессионалов в индустрии реально тестируют инструменты, о которых говорят .
🎙️ Технологический прорыв: от роботов к Sesame 8:37
Голос — это оригинальная и самая важная форма человеческой коммуникации, которая долгое время оставалась недоступной для качественной автоматизации. Аниш Ачарья утверждает, что голос опосредует почти каждое человеческое взаимодействие, но до недавнего времени у нас просто не было подходящей инфраструктуры .
Ключевые изменения в технологии:
- Задержка (Latency): Проблема задержки в разговоре считается практически решенной. Сейчас модели достигают показателя менее 0,5 секунды, что ощущается как человеческая реакция .
- Смена парадигмы в стеке: Традиционный стек «Audio-to-Text -> LLM -> Text-to-Speech» постепенно заменяется на нативные мультимодальные модели «Voice-to-Voice» (голос в голос). Оливия Мур выделяет Gemini Flash как одну из лучших моделей для таких задач .
- Модель Sesame: Этот проект стал прорывом в естественности звучания. Sesame добавляет в речь паузы, междометия («эм», «ну») и вокальные инфлексии, которые превращают роботизированный голос в нечто, что можно принять за человека .
По мнению Оливии Мур, следующая вершина — это полноценная эмоциональность: способность ИИ понимать контекст и менять тон (от радостного к грустному) в зависимости от содержания разговора .
🚛 ИИ в бизнесе: Кейс Happy Robot и переговоры 9:42
Наибольшую тягу (traction) сейчас демонстрируют B2B-стартапы, автоматизирующие колл-центры и взаимодействие с клиентами. Оливия Мур отмечает, что многие малые бизнесы тратят огромные средства на сотрудников, которые просто весь день отвечают на звонки .
Особое внимание гости уделили портфельной компании a16z — Happy Robot. Это голосовой ИИ для грузовых брокеров, который общается с дальнобойщиками.
Особенности Happy Robot:
- Симуляция человеческого поведения: Чтобы переговоры о цене выглядели реалистично, ИИ имитирует процесс согласования. Он может сказать: «Подождите, я уточню у начальника», — поставить человека на удержание на 5 секунд и вернуться с чуть более выгодным предложением .
- Доверие через психологию: Оливия Мур утверждает, что люди охотнее принимают финальное предложение, если чувствуют, что прошли через процесс реального торга и получили уступку, даже если это было симулировано алгоритмом .
- Сверхчеловеческое терпение: ИИ-агенты всегда дружелюбны, готовы слушать истории водителей об их дне и никогда не проявляют агрессии, в отличие от уставших людей-операторов .
🏢 Будущее рынка труда: колл-центры и дефицит смысла 40:54
Вопрос вытеснения людей ИИ-агентами остается дискуссионным. Аниш Ачарья и Оливия Мур придерживаются умеренно оптимистичной позиции, считая, что ИИ скорее «поднимает» людей выше по цепочке создания ценности.
Аргументы спикеров:
- Замена рутины: В колл-центрах текучесть кадров достигает 300% в год. Это тяжелая и неблагодарная работа, которую люди с радостью делегируют машинам .
- Сдвиг в рекрутинге: ИИ может проводить первичные скрининг-звонки, высвобождая рекрутеру 20 часов в неделю для глубокого общения с лучшими кандидатами .
- Отсутствие массовых увольнений (пока): Аниш Ачарья замечает, что они пока не видят 90% сокращений штатов в колл-центрах . Это связано с тем, что работа оператора не сводится только к ответам на вопросы — она включает в себя сложные переговоры, удержание клиентов и социальное взаимодействие .
Аниш Ачарья высказывает опасение: в мире изобилия, где ИИ заберет на себя всю работу, главной проблемой станет не отсутствие денег, а отсутствие смысла и цели (purpose) . Он приводит в пример культуру Google, которая, по его мнению, страдает от «низких ставок», так как бизнес компании слишком успешен и стабилен .
🍏 Почему Apple и Google отстают? 26:01
Недавние новости о том, что Siri получит серьезное обновление только к 2027 году, вызывают недоумение у экспертов. Аниш Ачарья называет текущее состояние Siri «ударом в глаз пять раз в день» для любого пользователя современных ИИ-продуктов .
Основные препятствия для гигантов:
- Корпоративный консерватизм: Большие корпорации созданы для того, чтобы убирать «человечность» и риск из продуктов. Комитеты, юристы и иерархия мешают принять «небрежную» и вероятностную природу ИИ .
- Страх перед ошибкой: Оливия Мур полагает, что реакция пользователей на ИИ-саммари уведомлений в iOS напугала Apple. Для запуска на сотнях миллионов устройств продукт должен быть безупречным, в то время как стартапы могут позволить себе бета-тестирование на энтузиастах .
- Упущенные возможности Google: Продукт Deep Research изначально был проектом Google (Gemini), но они не смогли его правильно коммерциализировать, и теперь эта ниша ассоциируется с OpenAI .
🧸 ИИ для детей и пожилых: Тьюторы и друзья 11:39
Голосовой ИИ открывает доступ к технологиям для тех, кто не умеет пользоваться сложными интерфейсами.
Примеры применения:
- Поддержка пожилых: Для людей в возрасте 90+ лет (как мать ведущего) голос — единственный естественный способ взаимодействия с техникой. ИИ может выступать в роли бесконечно терпеливого техподдержки, объясняя, как найти письмо в почте или починить пульт от ТВ .
- Эмоциональные наставники для детей: Аниш Ачарья мечтает об ИИ-компаньоне для своего сына, который играл бы с ним в Minecraft и моделировал позитивное социальное поведение, защищая от «токсичных подростков» в сети .
- Индивидуальное обучение: Стартапы вроде Synthesis или Super Teacher создают математических и языковых тьюторов, которые всегда рядом с ребенком .
❤️ Отношения с ИИ и этика клонирования 55:45
Индустрия ИИ-компаньонов (Character.ai, Replica) растет быстрее, чем ожидалось. Вопреки стереотипам, аудитория таких приложений — это не только одинокие мужчины. Оливия Мур отмечает, что огромный сегмент составляют женщины, использующие ИИ как «интерактивный фанфик» или для общения с «ИИ-бойфрендами» .
Этические и регуляторные тезисы:
- Психологическая помощь: Исследования Стэнфорда показали, что использование приложения Replica существенно снижает суицидальные мысли и побуждает людей больше выходить в реальный мир, а не замыкаться в себе .
- Реестр «Do Not Clone»: Ведущий предложил идею реестра (по аналогии с Do Not Call), где люди могли бы запретить клонирование своего голоса. Оливия Мур поддержала идею, но добавила, что это должно стать платформой для лицензирования: артисты смогут официально продавать право на использование своего цифрового аватара .
- Отказ от патернализма: Аниш Ачарья считает, что регуляторы часто ведут себя излишне покровительственно. Он утверждает, что потребители достаточно умны и медийно грамотны, чтобы понимать: если что-то написано в интернете или сказано голосом ИИ — это не обязательно правда .