Как Sesame создает «живой» компьютер через разговорный ИИ

💡 Будущее разговорного ИИ: как Andreessen Horowitz и Sesame строят «живой» компьютер 0:04

Разработчики из компании Sesame, стоящие за созданием разговорного ИИ-компаньона, делятся своим видением будущего технологий. В центре внимания — не просто «умная» модель, а создание естественного, эмоционального и «человечного» интерфейса, который может стать полноценным повседневным помощником.

🎙️ Философия продукта и «хороший вкус» в ИИ 14:11

По мнению основателя, индустрия ИИ сегодня чрезмерно сфокусирована на бенчмарках и «сырых» технологиях, часто упуская из виду пользовательский опыт. Команда Sesame стремится объединить глубокие ML-исследования с «творческим вкусом» — именно это позволяет продукту казаться настоящим собеседником, а не набором алгоритмов.

Фокус на важном: Вместо попыток быть лучшими во всем (например, в глубоких рассуждениях), команда сосредоточена на естественности голоса, интонациях и умении имитировать человеческие несовершенства.
Искусство быть «живым»: ИИ-компаньон, такой как Maya, специально обучается совершать паузы, перебивать в нужный момент или проявлять эмоции, что обманывает человеческий мозг, заставляя его воспринимать систему как человека.
Урок Pixar: Как и великая анимационная студия в эпоху развития компьютерной графики, Sesame пытается использовать технологии не ради самих технологий, а ради создания захватывающих историй и взаимодействия, доступного миллиардам людей.

🛠️ Системная инженерия: почему это сложно? 5:28

Создание ощущения «живого» общения требует невероятной скорости обработки данных. Текущая демонстрация все еще использует транскрипцию, но разработчики подчеркивают, что будущее — за аудио-ориентированными моделями.

Уход от текста: Цель — передать аудио напрямую в модель, минуя стадию транскрипции. Это позволит ИИ «слышать» не только слова, но и паралингвистические сигналы: эмоции, тон и настроение пользователя.
Системная оптимизация: Задержка отклика (latency) — критический фактор. Для достижения «суб-500-миллисекундного» отклика требуются колоссальные усилия по оптимизации всей инфраструктуры, а не только самой ML-модели.
Контекст как основа: Разработчики полагают, что именно контекстное понимание разговора, а не просто знание фактов, отличает хороший разговор от скучного.

🌐 Экосистема и hardware-будущее 31:34

В долгосрочной перспективе Sesame видит компаньонов не просто приложением на телефоне, а новым интерфейсом для вычислений, который требует минимального трения при взаимодействии.

Почему очки: Очки названы оптимальным форм-фактором, так как они находятся в точке, где расположены органы восприятия человека (зрение, слух). Это позволит ИИ видеть то же, что и пользователь, и действовать как «компаньон через плечо».
Открытый исходный код: Компания планирует открывать веса своих базовых моделей генерации речи. Это не маркетинговый ход для привлечения клиентов, а желание внести вклад в исследовательское сообщество. При этом полноценная демонстрация (весь сервис с Maya и Miles) остается закрытой.

📉 Масштабирование и прогнозы 47:04

С ростом моделей (от 1 млрд до 8 млрд параметров) ИИ начинает лучше справляться с «длинным хвостом» задач: от сложного выбора произношения слов (например, lead и lead) до понимания специфических акцентов и контекстных нюансов.

Риск регрессии: На вопрос, не станет ли ИИ «скучнее» и «роботизированнее» при попытке снизить галлюцинации, создатели отвечают отрицательно. Они уверены, что при правильной расстановке приоритетов можно повышать интеллект системы, сохраняя при этом ее яркую «личность».
Смена парадигмы: Дискуссия завершается тезисом о том, что компьютерная эра проходит путь от терминалов к GUI, и теперь — к естественному языку как основному интерфейсу.