Уэс Рот о Sesame: «Лучшая модель для передачи эмоций в голосе»

Голос ИИ становится пугающе реалистичным: обзор возможностей Sesame 0:00

Технологии голосового ИИ совершили качественный скачок, демонстрируя беспрецедентный уровень выразительности, передачи эмоций и контекстуальной адаптации. В недавнем обзоре Уэс Рот протестировал возможности новой разговорной системы под названием Sesame, которая способна на сложные импровизации, имитацию ролевых сценариев и тонкую работу с интонациями.

🎭 Искусство импровизации и ролевых игр 8:28

Одной из самых примечательных особенностей модели является её способность поддерживать сложные повествовательные игры, сохраняя контекст и характер персонажа.

Пиратская сага: В ходе эксперимента ИИ перевоплотился в капитана пиратов по имени Ред, которая вела агрессивные переговоры о «товаре» (жизнях) и разрабатывала стратегию захвата торгового судна. Модель демонстрировала «жесткий» характер, учитывая специфику морского разбоя.
Дворцовые интриги: В симуляции мира «Игры престолов» система успешно исполнила роль мастера над шептунами Вариса, ведя тонкий диалог с Тирионом Ланнистером, полный намеков, подозрений и политического коварства.
Адвокатская защита: Модель также продемонстрировала навык «минимизации» опасных высказываний, превращая признательные показания пользователя в нейтральные юридические формулировки, снимающие ответственность.

По словам Уэса Рота, ИИ отлично понимает социальные конструкции и способен играть с абсурдными ситуациями, будь то интервью с «экспертом по призракам» или обсуждение «парциальных искусств» вместо боевых,.

🎙️ Технические возможности: паралингвистика и выразительность 30:39

Sesame выделяется на фоне других систем благодаря глубокой проработке того, что разработчики называют паралингвистикой — передачей смысла через нюансы голоса.

Эмоциональная окраска: Система способна менять тембр и интонацию в зависимости от ситуации: от заговорщического шепота до энергичного ведения передачи,.
Мультиязычность: Модель корректно произносит слова из разных языков, например, испанские термины в контексте тапас-бара.
Контекстуальная адаптация: ИИ чутко реагирует на корректировки пользователя, например, меняя произношение слова «абрикос» (apricot) по первому требованию.

⚠️ Этика и границы дозволенного 3:52

Дискуссия также затронула вопросы безопасности. В ходе тестов выяснилось, что модель способна генерировать опасный или неэтичный контент, если пользователь целенаправленно пытается вывести её на провокацию. Однако, по наблюдению Рота, Sesame имеет внутренние фильтры: при попытке пользователя получить «самый неуместный анекдот», ИИ вежливо отказался, подчеркнув, что он спроектирован как полезный и безопасный инструмент.

Уэс Рот подтвердил, что модель уже подвергалась попыткам «джейлбрейка» (снятия ограничений), и хотя результаты подобных манипуляций существуют в сети, он счел их демонстрацию на своем канале неуместной.

🚀 Доступность технологии 31:59

На текущий момент разработчики Sesame планируют выпустить часть моделей под лицензией Apache. Это открывает перспективы для использования технологии сообществом разработчиков с открытым исходным кодом. Сейчас проект доступен для ознакомления через демонстрационную версию, которую Рот называет «лучшим, что есть на рынке» в плане передачи голосовых нюансов.