Аниш Ачарья: «Голосовой ИИ станет эмоциональным велосипедом для человечества»

Голосовые интерфейсы переживают второе рождение: от примитивных команд «Siri, поставь таймер» технологии перешли к полноценным переговорам, эмоциональной поддержке и управлению сложными бизнес-процессами. В этом выпуске подкаста The Cognitive Revolution Оливия Мур и Аниш Ачарья, партнеры венчурного фонда a16z, обсуждают, как изменился стек технологий голосового ИИ, почему стартапы в этой нише растут быстрее традиционных SaaS-решений и что мешает технологическим гигантам вроде Apple и Google возглавить эту гонку.

🔍 Методология «скаутов ИИ»: как находить тренды 3:38

Оливия Мур и Аниш Ачарья называют себя «скаутами ИИ» — специалистами, которые ищут сигналы будущего на периферии пользовательского опыта. По словам Оливии Мур, для поиска «альфы» (скрытых возможностей) инвестору необходимо быть «хронически онлайн», но следить не только за техническими анонсами в X (Twitter), но и за поведением обычных людей на YouTube и в TikTok .

Инвестиционные тезисы и методы поиска:

YouTube как главный индикатор: По данным Оливии Мур, YouTube является мобильным приложением №1 и вторым сайтом в мире по посещаемости. Для многих ИИ-сервисов YouTube выступает основным источником социального трафика .
«Взлом» моделей пользователями: Первым сигналом востребованности технологии часто становится «офф-лейбл» использование. Оливия Мур отмечает, что когда подростки начинают массово пытаться заставить ChatGPT быть их терапевтом, другом или тренером — это явный признак того, что рынку нужен отдельный специализированный продукт .
Личный опыт: Аниш Ачарья подчеркивает важность использования продуктов (Deep Research, DeepSeek, Korea) лично. По его мнению, удивительно мало профессионалов в индустрии реально тестируют инструменты, о которых говорят .

🎙️ Технологический прорыв: от роботов к Sesame 8:37

Голос — это оригинальная и самая важная форма человеческой коммуникации, которая долгое время оставалась недоступной для качественной автоматизации. Аниш Ачарья утверждает, что голос опосредует почти каждое человеческое взаимодействие, но до недавнего времени у нас просто не было подходящей инфраструктуры .

Ключевые изменения в технологии:

Задержка (Latency): Проблема задержки в разговоре считается практически решенной. Сейчас модели достигают показателя менее 0,5 секунды, что ощущается как человеческая реакция .
Смена парадигмы в стеке: Традиционный стек «Audio-to-Text -> LLM -> Text-to-Speech» постепенно заменяется на нативные мультимодальные модели «Voice-to-Voice» (голос в голос). Оливия Мур выделяет Gemini Flash как одну из лучших моделей для таких задач .
Модель Sesame: Этот проект стал прорывом в естественности звучания. Sesame добавляет в речь паузы, междометия («эм», «ну») и вокальные инфлексии, которые превращают роботизированный голос в нечто, что можно принять за человека .

По мнению Оливии Мур, следующая вершина — это полноценная эмоциональность: способность ИИ понимать контекст и менять тон (от радостного к грустному) в зависимости от содержания разговора .

🚛 ИИ в бизнесе: Кейс Happy Robot и переговоры 9:42

Наибольшую тягу (traction) сейчас демонстрируют B2B-стартапы, автоматизирующие колл-центры и взаимодействие с клиентами. Оливия Мур отмечает, что многие малые бизнесы тратят огромные средства на сотрудников, которые просто весь день отвечают на звонки .

Особое внимание гости уделили портфельной компании a16z — Happy Robot. Это голосовой ИИ для грузовых брокеров, который общается с дальнобойщиками.

Особенности Happy Robot:

Симуляция человеческого поведения: Чтобы переговоры о цене выглядели реалистично, ИИ имитирует процесс согласования. Он может сказать: «Подождите, я уточню у начальника», — поставить человека на удержание на 5 секунд и вернуться с чуть более выгодным предложением .
Доверие через психологию: Оливия Мур утверждает, что люди охотнее принимают финальное предложение, если чувствуют, что прошли через процесс реального торга и получили уступку, даже если это было симулировано алгоритмом .
Сверхчеловеческое терпение: ИИ-агенты всегда дружелюбны, готовы слушать истории водителей об их дне и никогда не проявляют агрессии, в отличие от уставших людей-операторов .

🏢 Будущее рынка труда: колл-центры и дефицит смысла 40:54

Вопрос вытеснения людей ИИ-агентами остается дискуссионным. Аниш Ачарья и Оливия Мур придерживаются умеренно оптимистичной позиции, считая, что ИИ скорее «поднимает» людей выше по цепочке создания ценности.

Аргументы спикеров:

Замена рутины: В колл-центрах текучесть кадров достигает 300% в год. Это тяжелая и неблагодарная работа, которую люди с радостью делегируют машинам .
Сдвиг в рекрутинге: ИИ может проводить первичные скрининг-звонки, высвобождая рекрутеру 20 часов в неделю для глубокого общения с лучшими кандидатами .
Отсутствие массовых увольнений (пока): Аниш Ачарья замечает, что они пока не видят 90% сокращений штатов в колл-центрах . Это связано с тем, что работа оператора не сводится только к ответам на вопросы — она включает в себя сложные переговоры, удержание клиентов и социальное взаимодействие .

Аниш Ачарья высказывает опасение: в мире изобилия, где ИИ заберет на себя всю работу, главной проблемой станет не отсутствие денег, а отсутствие смысла и цели (purpose) . Он приводит в пример культуру Google, которая, по его мнению, страдает от «низких ставок», так как бизнес компании слишком успешен и стабилен .

🍏 Почему Apple и Google отстают? 26:01

Недавние новости о том, что Siri получит серьезное обновление только к 2027 году, вызывают недоумение у экспертов. Аниш Ачарья называет текущее состояние Siri «ударом в глаз пять раз в день» для любого пользователя современных ИИ-продуктов .

Основные препятствия для гигантов:

Корпоративный консерватизм: Большие корпорации созданы для того, чтобы убирать «человечность» и риск из продуктов. Комитеты, юристы и иерархия мешают принять «небрежную» и вероятностную природу ИИ .
Страх перед ошибкой: Оливия Мур полагает, что реакция пользователей на ИИ-саммари уведомлений в iOS напугала Apple. Для запуска на сотнях миллионов устройств продукт должен быть безупречным, в то время как стартапы могут позволить себе бета-тестирование на энтузиастах .
Упущенные возможности Google: Продукт Deep Research изначально был проектом Google (Gemini), но они не смогли его правильно коммерциализировать, и теперь эта ниша ассоциируется с OpenAI .

🧸 ИИ для детей и пожилых: Тьюторы и друзья 11:39

Голосовой ИИ открывает доступ к технологиям для тех, кто не умеет пользоваться сложными интерфейсами.

Примеры применения:

Поддержка пожилых: Для людей в возрасте 90+ лет (как мать ведущего) голос — единственный естественный способ взаимодействия с техникой. ИИ может выступать в роли бесконечно терпеливого техподдержки, объясняя, как найти письмо в почте или починить пульт от ТВ .
Эмоциональные наставники для детей: Аниш Ачарья мечтает об ИИ-компаньоне для своего сына, который играл бы с ним в Minecraft и моделировал позитивное социальное поведение, защищая от «токсичных подростков» в сети .
Индивидуальное обучение: Стартапы вроде Synthesis или Super Teacher создают математических и языковых тьюторов, которые всегда рядом с ребенком .

❤️ Отношения с ИИ и этика клонирования 55:45

Индустрия ИИ-компаньонов (Character.ai, Replica) растет быстрее, чем ожидалось. Вопреки стереотипам, аудитория таких приложений — это не только одинокие мужчины. Оливия Мур отмечает, что огромный сегмент составляют женщины, использующие ИИ как «интерактивный фанфик» или для общения с «ИИ-бойфрендами» .

Этические и регуляторные тезисы:

Психологическая помощь: Исследования Стэнфорда показали, что использование приложения Replica существенно снижает суицидальные мысли и побуждает людей больше выходить в реальный мир, а не замыкаться в себе .
Реестр «Do Not Clone»: Ведущий предложил идею реестра (по аналогии с Do Not Call), где люди могли бы запретить клонирование своего голоса. Оливия Мур поддержала идею, но добавила, что это должно стать платформой для лицензирования: артисты смогут официально продавать право на использование своего цифрового аватара .
Отказ от патернализма: Аниш Ачарья считает, что регуляторы часто ведут себя излишне покровительственно. Он утверждает, что потребители достаточно умны и медийно грамотны, чтобы понимать: если что-то написано в интернете или сказано голосом ИИ — это не обязательно правда .