Как Sesame создает «живой» компьютер через разговорный ИИ

a16z (Andreessen Horowitz) 13 тыс. 1 ч 36 мин 2 мин 15.03.2025
Главное

💡 Будущее разговорного ИИ: как Andreessen Horowitz и Sesame строят «живой» компьютер 0:04

Разработчики из компании Sesame, стоящие за созданием разговорного ИИ-компаньона, делятся своим видением будущего технологий. В центре внимания — не просто «умная» модель, а создание естественного, эмоционального и «человечного» интерфейса, который может стать полноценным повседневным помощником.

🎙️ Философия продукта и «хороший вкус» в ИИ 14:11

По мнению основателя, индустрия ИИ сегодня чрезмерно сфокусирована на бенчмарках и «сырых» технологиях, часто упуская из виду пользовательский опыт. Команда Sesame стремится объединить глубокие ML-исследования с «творческим вкусом» — именно это позволяет продукту казаться настоящим собеседником, а не набором алгоритмов.

🛠️ Системная инженерия: почему это сложно? 5:28

Создание ощущения «живого» общения требует невероятной скорости обработки данных. Текущая демонстрация все еще использует транскрипцию, но разработчики подчеркивают, что будущее — за аудио-ориентированными моделями.

  1. Уход от текста: Цель — передать аудио напрямую в модель, минуя стадию транскрипции. Это позволит ИИ «слышать» не только слова, но и паралингвистические сигналы: эмоции, тон и настроение пользователя.
  2. Системная оптимизация: Задержка отклика (latency) — критический фактор. Для достижения «суб-500-миллисекундного» отклика требуются колоссальные усилия по оптимизации всей инфраструктуры, а не только самой ML-модели.
  3. Контекст как основа: Разработчики полагают, что именно контекстное понимание разговора, а не просто знание фактов, отличает хороший разговор от скучного.

🌐 Экосистема и hardware-будущее 31:34

В долгосрочной перспективе Sesame видит компаньонов не просто приложением на телефоне, а новым интерфейсом для вычислений, который требует минимального трения при взаимодействии.

📉 Масштабирование и прогнозы 47:04

С ростом моделей (от 1 млрд до 8 млрд параметров) ИИ начинает лучше справляться с «длинным хвостом» задач: от сложного выбора произношения слов (например, lead и lead) до понимания специфических акцентов и контекстных нюансов.

💬 Цитаты

«Мы не компания-первопроходец моделей. Мы пытаемся соединить отличную технологию с творческим вкусом.»

«Разговорный голос — это высокополосная связь, где даже малейшие детали могут заставить пользователя почувствовать, что собеседник фальшивый.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
CSM
Conversational Speech Model — архитектура на базе трансформеров для контекстного общения.
Multimodal Transformer
Архитектура нейросети, способная обрабатывать и генерировать несколько типов данных (текст, аудио, видео).
Latency
Задержка между отправкой запроса пользователем и получением ответа от системы.
Homograph selection
Задача нейросети выбрать правильное произношение слова в зависимости от контекста фразы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Sesame conversational AI multimodal transformer speech generation AI companion