# Аниш Ачарья: «Голосовой ИИ станет эмоциональным велосипедом для человечества»

Источник: https://www.youtube.com/watch?v=q3G6bTtcrco
Канал: Cognitive Revolution "How AI Changes Everything"
Опубликовано: 19.03.2025

---

Голосовые интерфейсы переживают второе рождение: от примитивных команд «Siri, поставь таймер» технологии перешли к полноценным переговорам, эмоциональной поддержке и управлению сложными бизнес-процессами. В этом выпуске подкаста *The Cognitive Revolution* Оливия Мур и Аниш Ачарья, партнеры венчурного фонда a16z, обсуждают, как изменился стек технологий голосового ИИ, почему стартапы в этой нише растут быстрее традиционных SaaS-решений и что мешает технологическим гигантам вроде Apple и Google возглавить эту гонку.

## 🔍 Методология «скаутов ИИ»: как находить тренды
[[JUMP:03:38]]

Оливия Мур и Аниш Ачарья называют себя «скаутами ИИ» — специалистами, которые ищут сигналы будущего на периферии пользовательского опыта. По словам Оливии Мур, для поиска «альфы» (скрытых возможностей) инвестору необходимо быть «хронически онлайн», но следить не только за техническими анонсами в X (Twitter), но и за поведением обычных людей на YouTube и в TikTok [04:44].

Инвестиционные тезисы и методы поиска:

*   **YouTube как главный индикатор:** По данным Оливии Мур, YouTube является мобильным приложением №1 и вторым сайтом в мире по посещаемости. Для многих ИИ-сервисов YouTube выступает основным источником социального трафика [05:23].
*   **«Взлом» моделей пользователями:** Первым сигналом востребованности технологии часто становится «офф-лейбл» использование. Оливия Мур отмечает, что когда подростки начинают массово пытаться заставить ChatGPT быть их терапевтом, другом или тренером — это явный признак того, что рынку нужен отдельный специализированный продукт [06:03].
*   **Личный опыт:** Аниш Ачарья подчеркивает важность использования продуктов (Deep Research, DeepSeek, Korea) лично. По его мнению, удивительно мало профессионалов в индустрии реально тестируют инструменты, о которых говорят [06:29].

## 🎙️ Технологический прорыв: от роботов к Sesame
[[JUMP:08:37]]

Голос — это оригинальная и самая важная форма человеческой коммуникации, которая долгое время оставалась недоступной для качественной автоматизации. Аниш Ачарья утверждает, что голос опосредует почти каждое человеческое взаимодействие, но до недавнего времени у нас просто не было подходящей инфраструктуры [09:03].

Ключевые изменения в технологии:

*   **Задержка (Latency):** Проблема задержки в разговоре считается практически решенной. Сейчас модели достигают показателя менее 0,5 секунды, что ощущается как человеческая реакция [18:25].
*   **Смена парадигмы в стеке:** Традиционный стек «Audio-to-Text -> LLM -> Text-to-Speech» постепенно заменяется на нативные мультимодальные модели «Voice-to-Voice» (голос в голос). Оливия Мур выделяет Gemini Flash как одну из лучших моделей для таких задач [31:34].
*   **Модель Sesame:** Этот проект стал прорывом в естественности звучания. Sesame добавляет в речь паузы, междометия («эм», «ну») и вокальные инфлексии, которые превращают роботизированный голос в нечто, что можно принять за человека [18:50].

По мнению Оливии Мур, следующая вершина — это полноценная эмоциональность: способность ИИ понимать контекст и менять тон (от радостного к грустному) в зависимости от содержания разговора [19:16].

## 🚛 ИИ в бизнесе: Кейс Happy Robot и переговоры
[[JUMP:09:42]]

Наибольшую тягу (traction) сейчас демонстрируют B2B-стартапы, автоматизирующие колл-центры и взаимодействие с клиентами. Оливия Мур отмечает, что многие малые бизнесы тратят огромные средства на сотрудников, которые просто весь день отвечают на звонки [10:07].

Особое внимание гости уделили портфельной компании a16z — **Happy Robot**. Это голосовой ИИ для грузовых брокеров, который общается с дальнобойщиками.

Особенности Happy Robot:

*   **Симуляция человеческого поведения:** Чтобы переговоры о цене выглядели реалистично, ИИ имитирует процесс согласования. Он может сказать: «Подождите, я уточню у начальника», — поставить человека на удержание на 5 секунд и вернуться с чуть более выгодным предложением [23:24].
*   **Доверие через психологию:** Оливия Мур утверждает, что люди охотнее принимают финальное предложение, если чувствуют, что прошли через процесс реального торга и получили уступку, даже если это было симулировано алгоритмом [23:49].
*   **Сверхчеловеческое терпение:** ИИ-агенты всегда дружелюбны, готовы слушать истории водителей об их дне и никогда не проявляют агрессии, в отличие от уставших людей-операторов [25:08].

## 🏢 Будущее рынка труда: колл-центры и дефицит смысла
[[JUMP:40:54]]

Вопрос вытеснения людей ИИ-агентами остается дискуссионным. Аниш Ачарья и Оливия Мур придерживаются умеренно оптимистичной позиции, считая, что ИИ скорее «поднимает» людей выше по цепочке создания ценности.

Аргументы спикеров:

1.  **Замена рутины:** В колл-центрах текучесть кадров достигает 300% в год. Это тяжелая и неблагодарная работа, которую люди с радостью делегируют машинам [42:40].
2.  **Сдвиг в рекрутинге:** ИИ может проводить первичные скрининг-звонки, высвобождая рекрутеру 20 часов в неделю для глубокого общения с лучшими кандидатами [43:06].
3.  **Отсутствие массовых увольнений (пока):** Аниш Ачарья замечает, что они пока не видят 90% сокращений штатов в колл-центрах [45:09]. Это связано с тем, что работа оператора не сводится только к ответам на вопросы — она включает в себя сложные переговоры, удержание клиентов и социальное взаимодействие [45:22].

Аниш Ачарья высказывает опасение: в мире изобилия, где ИИ заберет на себя всю работу, главной проблемой станет не отсутствие денег, а отсутствие смысла и цели (purpose) [48:44]. Он приводит в пример культуру Google, которая, по его мнению, страдает от «низких ставок», так как бизнес компании слишком успешен и стабилен [48:58].

## 🍏 Почему Apple и Google отстают?
[[JUMP:26:01]]

Недавние новости о том, что Siri получит серьезное обновление только к 2027 году, вызывают недоумение у экспертов. Аниш Ачарья называет текущее состояние Siri «ударом в глаз пять раз в день» для любого пользователя современных ИИ-продуктов [27:04].

Основные препятствия для гигантов:

*   **Корпоративный консерватизм:** Большие корпорации созданы для того, чтобы убирать «человечность» и риск из продуктов. Комитеты, юристы и иерархия мешают принять «небрежную» и вероятностную природу ИИ [27:31].
*   **Страх перед ошибкой:** Оливия Мур полагает, что реакция пользователей на ИИ-саммари уведомлений в iOS напугала Apple. Для запуска на сотнях миллионов устройств продукт должен быть безупречным, в то время как стартапы могут позволить себе бета-тестирование на энтузиастах [28:10].
*   **Упущенные возможности Google:** Продукт *Deep Research* изначально был проектом Google (Gemini), но они не смогли его правильно коммерциализировать, и теперь эта ниша ассоциируется с OpenAI [29:43].

## 🧸 ИИ для детей и пожилых: Тьюторы и друзья
[[JUMP:11:39]]

Голосовой ИИ открывает доступ к технологиям для тех, кто не умеет пользоваться сложными интерфейсами.

Примеры применения:

*   **Поддержка пожилых:** Для людей в возрасте 90+ лет (как мать ведущего) голос — единственный естественный способ взаимодействия с техникой. ИИ может выступать в роли бесконечно терпеливого техподдержки, объясняя, как найти письмо в почте или починить пульт от ТВ [13:10].
*   **Эмоциональные наставники для детей:** Аниш Ачарья мечтает об ИИ-компаньоне для своего сына, который играл бы с ним в Minecraft и моделировал позитивное социальное поведение, защищая от «токсичных подростков» в сети [53:24].
*   **Индивидуальное обучение:** Стартапы вроде *Synthesis* или *Super Teacher* создают математических и языковых тьюторов, которые всегда рядом с ребенком [54:16].

## ❤️ Отношения с ИИ и этика клонирования
[[JUMP:55:45]]

Индустрия ИИ-компаньонов (Character.ai, Replica) растет быстрее, чем ожидалось. Вопреки стереотипам, аудитория таких приложений — это не только одинокие мужчины. Оливия Мур отмечает, что огромный сегмент составляют женщины, использующие ИИ как «интерактивный фанфик» или для общения с «ИИ-бойфрендами» [57:41].

Этические и регуляторные тезисы:

*   **Психологическая помощь:** Исследования Стэнфорда показали, что использование приложения *Replica* существенно снижает суицидальные мысли и побуждает людей больше выходить в реальный мир, а не замыкаться в себе [58:34].
*   **Реестр «Do Not Clone»:** Ведущий предложил идею реестра (по аналогии с Do Not Call), где люди могли бы запретить клонирование своего голоса. Оливия Мур поддержала идею, но добавила, что это должно стать платформой для лицензирования: артисты смогут официально продавать право на использование своего цифрового аватара [1:00:58].
*   **Отказ от патернализма:** Аниш Ачарья считает, что регуляторы часто ведут себя излишне покровительственно. Он утверждает, что потребители достаточно умны и медийно грамотны, чтобы понимать: если что-то написано в интернете или сказано голосом ИИ — это не обязательно правда [1:02:14].