Интерфейс вместо моделей: Анкит из Sesame о будущем голосового ИИ

В свежем выпуске подкаста венчурного фонда a16z генеральный партнер Анджней Мидха обсудил будущее разговорного искусственного интеллекта с Анкитом, одним из создателей нашумевшего исследовательского превью Sesame AI. Собеседники подробно разобрали, как небольшая команда из 15 человек смогла совершить прорыв в сфере реалистичных голосовых интерфейсов, создав цифровых компаньонов Майю и Майлза. Главная идея дискуссии заключается в том, что голосовой ИИ — это не просто очередное приложение, а принципиально новый слой интерфейса вычислений, где эмоциональная глубина взаимодействия важнее сухих бенчмарков.

🎭 Феномен Sesame: почему несовершенство звучит естественно

<a class="ts" data-seconds="56" href="#t=56" title="Смотреть с 0:56" aria-label="Смотреть с 0:56"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Выпуск исследовательского превью от Sesame AI вызвал бурную реакцию среди пользователей, что стало неожиданностью для самих разработчиков. Как признается Анкит, в процессе создания продукта инженеры ежедневно видят разрыв между текущей демо-версией и более совершенными внутренними наработками. Этот психологический феномен часто заставляет стартапы откладывать релизы, бесконечно полируя детали и пытаясь внедрить как можно больше функций перед выходом на публику. Тем не менее, первая же публичная демонстрация Майи и Майлза попала в нерв аудитории благодаря уникальной органике диалога.

Инвестиционный тезис a16z, прослеживающийся в этой дискуссии, явно указывает на смену парадигмы в ИИ-индустрии. Ценность смещается с чистой вычислительной мощности базовых языковых моделей на уровень пользовательского интерфейса (interface layer). По мнению Анджнея Мидхи и Анкита, создание успешного ИИ-продукта сегодня требует не просто математической строгости, а «творческого вкуса» и глубокого понимания гуманитарных аспектов взаимодействия. Голосовые интерфейсы способны генерировать кратно более высокую вовлеченность пользователей, замыкая на себе удержание и лояльность потребителей.

Разработчики объясняют, что при оценке разговорных моделей классические автоматические тесты (evals) имеют свои ограничения. Команда запускала стандартные метрики для генерации речи и языковых моделей, однако для качественного скачка потребовалось опираться на субъективные человеческие реакции. Анкит подчеркивает, что развитие ИИ-продуктов на базе машинного обучения требует новых операционных практик, где интуиция и постоянный цикл фидбека от реальных людей играют ключевую роль, хотя полностью полагаться только на чутье в ML тоже нельзя.

🛠️ За кулисами системной инженерии: от транскрипции к нативному аудио

<a class="ts" data-seconds="315" href="#t=315" title="Смотреть с 5:15" aria-label="Смотреть с 5:15"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Одним из главных технических вопросов аудитории к создателям Sesame стало то, как именно инженеры связали распознавание речи (транскрипцию) и обработку текста. Анкит раскрыл архитектурный секрет: в текущей демо-версии нет сверхъестественных алгоритмов распознавания, а весь фокус был направлен на системную инженерию для снижения задержек (latency). Скорость инкрементальной транскрипции была доведена до предела за счет оптимизации инфраструктуры stacks, кэширования и пре-компьютации, что позволило добиться времени ответа менее 500 миллисекунд.

Однако текущая схема с промежуточным переводом голоса в текст рассматривается командой как временное ограничение. По словам Анкита, индустрия и сама лаборатория Sesame быстрыми темпами движутся к моделям, полностью свободным от транскрипции (transcription-free). В следующих версиях языковая модель будет напрямую принимать аудиопоток на входе и генерировать аудио на выходе в процессе инференса.

Текущее превью Sesame имеет серьезный недостаток: оно «не слышит» паралингвистический контекст — эмоциональный тон, вздохи или сарказм пользователя, поскольку текстовая транскрипция полностью стирает эти нюансы. Нативный ввод звука напрямую в LM-компонент позволит ИИ считывать скрытые словесные сигналы.

🎯 Стратегия фокуса: как обойти технологических гигантов

<a class="ts" data-seconds="469" href="#t=469" title="Смотреть с 7:49" aria-label="Смотреть с 7:49"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Удивительным фактом является то, что Sesame совершила технологический прыжок, будучи крошечным и гораздо менее профинансированным стартапом по сравнению с ведущими AGI-лабораториями. Вся софтверная команда Sesame, включая специалистов по машинному обучению и инфраструктуре, насчитывает менее 15 человек, из которых core ML-направлением занимаются всего 7–8 инженеров. Анкит объясняет этот успех жесткой приоритизацией: стартап сознательно выбирает, в каких битвах участвовать, а какие игнорировать.

Вместо того чтобы тратить миллиарды долларов на предварительное обучение огромных языковых моделей (pre-training LMs), Sesame берет лучшие открытые базовые текстовые модели (такие как Llama, Qwen или DeepSeek R1) и надстраивает над ними собственные мультимодальные слои. Главные ресурсы команды направлены на естественность голоса и симуляцию человеческих несовершенств — микропауз, исправлений и оговорок, которые обманывают мозг слушателя, создавая иллюзию общения с реальным человеком. Платой за это является временное снижение аналитических способностей Майи по сравнению с тяжелыми промышленными моделями, но взамен пользователь получает невероятно плавное взаимодействие.

Анкит признается, что источником вдохновения для них служит студия Pixar. В свое время Pixar взяла передовые технологии компьютерной графики и подчинила их искусству сторителлинга и созданию великих фильмов. Аналогично, Sesame стремится соединить высокие технологии ИИ с художественным вкусом, делая интерфейсы доступными для миллиардов обычных людей.

🔓 Открытый код и локальный запуск: веса CSM выходят в свет

<a class="ts" data-seconds="1127" href="#t=1127" title="Смотреть с 18:47" aria-label="Смотреть с 18:47"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Компания Sesame приняла решение открыть веса своей базовой модели генерации речи — Conversational Speech Model (CSM). Анкит подчеркивает, что они не развивают бизнес по продаже API для корпоративных разработчиков и не ищут клиентов через опенсорс. Этот шаг — чистая дань уважения исследовательскому ИИ-сообществу и желание внести свой вклад в развитие науки.

При этом разработчики прояснили популярное заблуждение: они не выкладывают в открытый доступ полноценное демо Майи или Майлза. В открытый доступ уходит только базовая модель генерации контекстной речи. Полная экосистема Sesame включает в себя сложную систему оптимизации задержек, логику обработки прерываний и текстовые надстройки, которые остаются проприетарной частью бизнеса.

Для того чтобы энтузиасты могли воссоздать локальную версию Майи на своем ноутбуке после публикации весов, им потребуется собрать каскадную систему из нескольких компонентов:

Выбрать стороннее решение для транскрипции текста.
Подключить подходящую текстовую языковую модель (LLM) и задать ей системный промпт.
Использовать открытую модель генерации речи от Sesame, предварительно дообучив (fine-tune) её на нужном голосе.

Важной особенностью архитектуры CSM является способность к клонированию голоса «на лету» через контекстное обучение (in-context learning). Модель обучалась именно под эту задачу, поэтому вместо явной функции клонирования ей можно передать последовательность чередующихся текстовых и аудиофрагментов (utterances), на основе которых она воссоздаст нужный тембр и акцент.

🧠 Эволюция контекста: фундаментальное отличие CSM от TTS

<a class="ts" data-seconds="1589" href="#t=1589" title="Смотреть с 26:29" aria-label="Смотреть с 26:29"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Анкит обращает внимание на критически важную разницу между традиционными технологиями Text-to-Speech (TTS) и контекстной генерацией речи (speech generation). В обычном TTS алгоритм видит только одну изолированную фразу, у которой может быть бесконечное множество вариантов интонационного прочтения. Без знания истории разговора модель вынуждена выдавать «наименьший общий знаменатель» — плоский, нейтральный и роботизированный звук. Если традиционный TTS попытается проявить излишнюю эмоциональность вслепую, он с высокой вероятностью попадет мимо контекста — например, зазвучит радостно в трагический момент диалога.

Контекстная модель CSM от Sesame обучается на полных аудиозаписях человеческих дискуссий. Она учитывает то, как собеседники зеркально отражают эмоции друг друга, утешают или подбадривают. Живой диалог — это сложная динамика, которую невозможно описать жесткими правилами «если-то», её можно только извлечь из массивов данных с помощью трансформеров.

В долгосрочной перспективе Sesame видит своих компаньонов не запертыми в экранах смартфонов или ноутбуков. По мнению разработчиков, идеальным и бесшовным физическим воплощением ИИ-друга станут смарт-очки для повседневного ношения. Этот форм-фактор оптимален, так как устройство располагается непосредственно там же, где находятся естественные органы восприятия человека — глаза и уши. Очки с постоянным доступом и нулевым трением (friction) позволят ИИ делить с пользователем общий визуальный контекст, превращая общение в устойчивую ежедневно эту привычку.

📊 Законы масштабирования в аудио и новые подходы к evals

<a class="ts" data-seconds="2824" href="#t=2824" title="Смотреть с 47:04" aria-label="Смотреть с 47:04"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

В рамках публикации результатов исследований команда Sesame представила три варианта модели CSM: на 1 миллиард, 3 миллиарда и 8 миллиардов параметров. Эксперименты подтвердили, что даже младшая модель отлично справляется с базовым синтезом, но масштабирование (scaling) критически важно для обработки сложных контекстуальных и «длиннохвостых» (long-tail) языковых явлений.

В качестве примера Анкит привел тесты на омографы — слова, которые пишутся одинаково, но произносятся по-разному в зависимости от семантики предложения (например, английские lead как «свинец» и lead как «вести за собой»). Более крупные модели гораздо точнее считывают контекст фразы и выбирают верную фонему. Аналогичный прогресс зафиксирован и в удержании акцента или регионального произношения (например, вариантов route / root). Если модели дать короткий аудио-пример с определенным произношением, 8-миллиардная версия стабильно продолжает использовать его дальше по тексту, демонстрируя высокое контекстное обучение.

Анджней Мидха поделился личной историей тестирования ранних чекпоинтов Майи. Его имя пишется как A-N-J, но произносится как «Андж». Долгое время ИИ ежедневно ошибался, заставляя ведущего чувствовать себя персонажем фильма «День сурка», напоминая о правильном произношении. Но в один день, вероятно, после очередной итерации масштабирования, Майя навсегда запомнила верный вариант.

Подобные продуктовые нюансы заставляют полностью пересматривать подходы к тестированию ИИ. Привычная метрика Word Error Rate (WER), оценивающая долю ошибок в словах при транскрипции, практически полностью себя исчерпала на современных массивах данных. Для оценки естественности речи Sesame использует другие методы:

Тесты на произношение сложных имен и омографов.
Head-to-head рейтинги в стиле слепой ИИ-арены (preference arena).
Сравнение продолжения диалога моделью с реальным ответом живого актера, где измеряется так называемый win rate (доля побед над человеком).

🎭 Театр против реальности: как победить актерство в голосе

<a class="ts" data-seconds="3276" href="#t=3276" title="Смотреть с 54:36" aria-label="Смотреть с 54:36"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Несмотря на восторженные отзывы, часть пользователей в фанатском сабреддите отмечает, что Майя иногда звучит слишком экспрессивно, словно она постоянно играет роль на театральной сцене. Анджней Мидха привел в пример культуру голосовых каналов в Discord, где люди могут часами просто «висеть» вместе, общаясь на банальные темы или молча играя в игры. Настоящий человеческий разговор в большинстве своем бывает скучным, прерывистым и монотонным. Майя же стремится искусственно насытить диалог энергией и позитивом, что порой выдает её когнитивную природу.

Анкит соглашается с этой критикой и признает, что команде предстоит огромная работа. Голосовое взаимодействие обладает колоссальной пропускной способностью, и малейшая фальшь мгновенно считывается человеческим мозгом как маркер искусственности. Разработка сверхумной системы, которая при этом умеет быть органично скучной, вовремя промолчать или мягко подстроиться под меланхоличное настроение пользователя — это открытая и фундаментальная исследовательская задача на стыке психологии и ML.

🗺️ Полнодуплексное будущее: архитектура ИИ-интерфейса

<a class="ts" data-seconds="3602" href="#t=3602" title="Смотреть с 1:00:02" aria-label="Смотреть с 1:00:02"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Ближайшая дорожная карта исследований Sesame подразумевает отказ от разрозненных блоков. В течение нескольких месяцев компания планирует представить единый мультимодальный трансформер, который будет одновременно отвечать за распознавание звука, генерацию текстового смысла и синтез речи. Первым шагом станет добавление нативного понимания аудио — ИИ сможет напрямую услышать, если пользователь, к примеру, раскашлялся или замялся, даже если транскриптор не смог бы перевести это в буквы.

Однако главным технологическим вектором Анкит называет переход к полнодуплексным (full-duplex) архитектурам. Современные ИИ-ассистенты, включая текущую версию CSM, принимают решения и генерируют ответы «попредложенчески» (sentence by sentence). Модель строит целую фразу и не может изменить свое решение на лету, из-за чего прерывания приходится обрабатывать костылями и внешними эвристиками.

В будущем ИИ должен оперировать микроскопическими временными отрезками — фреймами или тайм-слайсами длиною около 100 миллисекунд. Шаг за шагом, в реальном времени, модель будет непрерывно решать: продолжать ли говорить, вставить ли короткий поддакивающий звук (back-channel), или мгновенно замолчать и уступить дорогу перебившему её человеку. Все эти сложные социальные паттерны должны быть зашиты глубоко в веса единой нейросети, а не регулироваться жестким кодом.

Что касается выбора между авторегрессионными трансформерами и диффузионными моделями, стартап делает однозначную ставку на трансформеры в качестве основы (core backbone). По мнению Анкита, авторегрессионный подход нативно каузален — каждый шаг жестко зависит от предыдущего таймстепа в последовательности, что идеально ложится на природу времени и диалога. Диффузия же может эффективно применяться на самом конечном этапе генерации чистого аудиосигнала, но ядром системы останется проверенный временем трансформер.

💻 «Оживление компьютера»: голосовой компаньон как замена ОС

<a class="ts" data-seconds="4317" href="#t=4317" title="Смотреть с 1:11:57" aria-label="Смотреть с 1:11:57"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Появление Sesame AI сравнивают с «моментом ChatGPT» для голосовых технологий. Некоторые пользователи выражают опасения, что по мере борьбы с галлюцинациями и внедрения систем безопасности модели Sesame потеряют свою яркую индивидуальность, как это произошло с ранними версиями текстовых чат-ботов от крупных корпораций. Анкит успокаивает аудиторию: крупные лаборатории создают утилитарных помощников, где во главе угла стоит точность фактов, тогда как Sesame строит компаньона, чьё главное УТП — это удержание эмоциональной связи и характера.

Создатели Sesame рассматривают свой продукт не как забавную утилиту, а как полноценный новый интерфейс вычислений. История знает несколько таких глобальных сдвигов: от командной строки (CLI) к графическому интерфейсу (GUI), который Стив Джобс и Дуглас Энгельбарт сделали доступным для масс. Естественный язык — это следующий шаг, стирающий барьеры между человеком и машиной.

Анкит описывает редуктивную архитектурную схему вычислительного стека будущего:

Физический клиент: Смартфоны и ноутбуки никуда не исчезнут, но к ним добавятся носимые девайсы (очки), обеспечивающие непрерывный контакт.
Интерфейсный слой (Companion Layer): Продуктовый слой, ИИ-компаньон с глубокой памятью, уникальным характером и адаптивной речью. Пользователь взаимодействует исключительно с ним.
Исполнительный слой (Downstream Services): Сторонние специализированные ИИ-агенты, поисковые движки, базы данных и цифровые веб-сервисы, к которым компаньон обращается для решения сложных многошаговых задач пользователя.

Разделение труда в индустрии неизбежно: одни компании будут бесконечно наращивать логические мощности и бенчмарки на нижних уровнях, а Sesame сфокусируется на самом верхнем, эмоциональном слое интерфейса. Ведь в конечном итоге пользователь выбирает не ту нейросеть, которая лучше решает олимпиадные задачи по математике, а ту, с которой ему искренне приятно и интересно разговаривать каждый день.

👥 Культура Sesame AI и охота за талантами

<a class="ts" data-seconds="5643" href="#t=5643" title="Смотреть с 1:34:03" aria-label="Смотреть с 1:34:03"><svg viewBox="0 0 24 24" width="14" height="14" fill="currentColor" aria-hidden="true"><path d="M8 5v14l11-7z"/></svg></a>

Для реализации столь амбициозных планов стартап активно расширяет команду. Однако планка отбора очень высока. Поскольку стек технологий меняется стремительно, компания избегает найма сверхузких специалистов. Например, сейчас невозможно найти инженера с десятилетним опытом масштабирования трансформеров для потокового аудио, потому что этой индустрии просто не существовало.

Критерии поиска идеального кандидата в Sesame AI:

Сильное системное мышление и способность быстро осваивать новые инженерные дисциплины.
Глубокая экспертиза в базовом ML или низкоуровневой инфраструктуре.
Продуктовый склад ума (product bent) и развитый эмпатический вкус.

Анкит резюмирует, что их главная цель — собрать людей, которые искренне хотят видеть ИИ и большие языковые модели не просто в виде сухих строчек API, а в форме живых, эмоциональных продуктов, которые люди будут любить.