Аниш Ачарья: «Голосовые приложения станут основой нашей продуктивности»

Голос как новый стандарт: почему 2024 год станет прорывом для голосовых интерфейсов 1:34

В мире технологий наступает переломный момент: привычные нам графические интерфейсы начинают уступать место естественному общению. Аниш Ачарья, генеральный партнер в Andreessen Horowitz, убежден, что в 2024 году голосовые технологии перестанут быть «игрушкой» и превратятся в фундамент для принципиально новых продуктивных приложений. Это не просто эволюция существующих помощников вроде Alexa, а качественный сдвиг, ставший возможным благодаря современным большим языковым моделям (LLM).

Проблема «последних 10 процентов» 3:54

Несмотря на десятилетия инвестиций со стороны таких гигантов, как Google, Amazon и Apple, голосовые помощники долгое время оставались ограничены жесткими логическими сценариями. По мнению Ачарьи, именно устаревшая архитектура препятствовала их развитию.

Барьер сложности: В большинстве сложных задач — от беспилотных автомобилей до интерактивного общения — можно достичь 90% эффективности, но оставшиеся 10% требуют 99% усилий.
Гибкость нейросетей: Предыдущие системы ломались, если пользователь отклонялся от заданного скрипта. Современные модели обеспечивают ту когнитивную сложность и гибкость, которые мы подсознательно ожидаем от собеседника-человека.

Гость отмечает, что сегодня мы уже видим впечатляющие результаты в реализации этой технологии, например, в голосовом режиме ChatGPT или разработках 11 Labs. Проблема заключалась не в отсутствии денег, а в отсутствии нужного технологического базиса.

Голосовой First-принцип в продуктивности 4:48

Аниш Ачарья считает, что внедрение голоса требует переосмысления пользовательского опыта «с нуля». Поэтому существующим компаниям (incumbents) будет крайне сложно адаптироваться.

Риск для гигантов: Попытка внедрить «голосовой inbox» в условный Gmail потребует радикального изменения рабочих процессов, что болезненно для огромной базы пользователей, привыкших к классическим интерфейсам.
Сценарий использования: Представьте опыт исполнительного директора, который по пути на работу «проговаривает» почту с виртуальным ассистентом: сортирует запросы, выделяет приоритеты и готовит ответы. Теперь эта «премиальная» услуга личного помощника становится доступной каждому благодаря ИИ.

На текущем этапе Ачарья выделяет стартап Tab — устройство в форме кулона, которое пассивно собирает контекст бесед в течение дня, позволяя пользователю позже задавать вопросы и получать саммари.

Будущее: рынок расширения, а не замещения 8:29

Один из главных вопросов заключается в том, не сделают ли голосовые интерфейсы текущие экраны и сайты ненужными. Ачарья полагает, что это «игра с положительной суммой» (positive-sum game).

Разделение задач: Для профессиональной работы, например программирования в IDE, использование клавиатуры и экрана останется эффективнее голоса.
Доступность: Для некоторых категорий пользователей, включая пожилых людей, голос может стать ключом к технологиям, которые раньше казались им слишком сложными и пугающими.

В качестве идеала будущего Ачарья приводит фильм «Она» (Her): мир, где голос является основным способом взаимодействия, а экран используется лишь как вспомогательный элемент.

Советы строителям будущего 10:36

Основателям стартапов Ачарья дает несколько рекомендаций, как подходить к разработке в этой новой нише:

Не бойтесь «белого листа»: Вместо попыток «прикрутить» голос к старому продукту лучше фокусироваться на создании новых сценариев использования.
Обучение пользователей: Люди ожидают от ИИ человеческой гибкости, и если система пока не достигла такого уровня, важно правильно настроить ожидания или научить пользователей взаимодействовать с ней.
Социальные паттерны: Нам предстоит пройти период адаптации, когда разговоры «с пустотой» могут казаться окружающим странными, подобно тому, как в начале 2000-х людей пугали разговоры по мобильному телефону в общественных местах.
Итеративность: Не стоит пытаться сразу спроектировать идеальный продукт. Ачарья советует предложить рынку базовую возможность и позволить клиентам самим «вытянуть» вас в нужном направлении.