Аниш Ачарья: «Голосовые приложения станут основой нашей продуктивности»

a16z (Andreessen Horowitz) 2,8 тыс. 13 мин 3 мин 15.12.2023
Главное

Голос как новый стандарт: почему 2024 год станет прорывом для голосовых интерфейсов 1:34

В мире технологий наступает переломный момент: привычные нам графические интерфейсы начинают уступать место естественному общению. Аниш Ачарья, генеральный партнер в Andreessen Horowitz, убежден, что в 2024 году голосовые технологии перестанут быть «игрушкой» и превратятся в фундамент для принципиально новых продуктивных приложений. Это не просто эволюция существующих помощников вроде Alexa, а качественный сдвиг, ставший возможным благодаря современным большим языковым моделям (LLM).

Проблема «последних 10 процентов» 3:54

Несмотря на десятилетия инвестиций со стороны таких гигантов, как Google, Amazon и Apple, голосовые помощники долгое время оставались ограничены жесткими логическими сценариями. По мнению Ачарьи, именно устаревшая архитектура препятствовала их развитию.

Гость отмечает, что сегодня мы уже видим впечатляющие результаты в реализации этой технологии, например, в голосовом режиме ChatGPT или разработках 11 Labs. Проблема заключалась не в отсутствии денег, а в отсутствии нужного технологического базиса.

Голосовой First-принцип в продуктивности 4:48

Аниш Ачарья считает, что внедрение голоса требует переосмысления пользовательского опыта «с нуля». Поэтому существующим компаниям (incumbents) будет крайне сложно адаптироваться.

На текущем этапе Ачарья выделяет стартап Tab — устройство в форме кулона, которое пассивно собирает контекст бесед в течение дня, позволяя пользователю позже задавать вопросы и получать саммари.

Будущее: рынок расширения, а не замещения 8:29

Один из главных вопросов заключается в том, не сделают ли голосовые интерфейсы текущие экраны и сайты ненужными. Ачарья полагает, что это «игра с положительной суммой» (positive-sum game).

В качестве идеала будущего Ачарья приводит фильм «Она» (Her): мир, где голос является основным способом взаимодействия, а экран используется лишь как вспомогательный элемент.

Советы строителям будущего 10:36

Основателям стартапов Ачарья дает несколько рекомендаций, как подходить к разработке в этой новой нише:

  1. Не бойтесь «белого листа»: Вместо попыток «прикрутить» голос к старому продукту лучше фокусироваться на создании новых сценариев использования.
  2. Обучение пользователей: Люди ожидают от ИИ человеческой гибкости, и если система пока не достигла такого уровня, важно правильно настроить ожидания или научить пользователей взаимодействовать с ней.
  3. Социальные паттерны: Нам предстоит пройти период адаптации, когда разговоры «с пустотой» могут казаться окружающим странными, подобно тому, как в начале 2000-х людей пугали разговоры по мобильному телефону в общественных местах.
  4. Итеративность: Не стоит пытаться сразу спроектировать идеальный продукт. Ачарья советует предложить рынку базовую возможность и позволить клиентам самим «вытянуть» вас в нужном направлении.
💬 Цитаты

«Голос никогда по-настоящему не работал в качестве интерфейса для технологий.»

Аниш Ачарья 01:59

«Это рынок расширения, игра с положительной суммой, а не с нулевой.»

Аниш Ачарья 09:34
👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Large Models (LLM)
Большие языковые модели, лежащие в основе генеративного ИИ и способные понимать контекст человеческой речи.
Incumbent
Компании, которые уже занимают доминирующее положение на рынке и имеют устоявшиеся продукты.
UI (User Interface)
Интерфейс пользователя, способ взаимодействия человека с программой или устройством.
First principles
Метод решения задач через базовые физические или логические истины, отбрасывая аналогии и допущения.
Positive sum
Ситуация, при которой выигрыш одной стороны не обязательно означает проигрыш другой, и общий пирог может увеличиваться.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Anish Acharya Andreessen Horowitz AI voice 11 Labs Tab