# Уэс Рот о Sesame: «Лучшая модель для передачи эмоций в голосе»

Источник: https://www.youtube.com/watch?v=zbjdmesAOO4
Канал: Wes Roth
Опубликовано: 04.03.2025

---

## Голос ИИ становится пугающе реалистичным: обзор возможностей Sesame
[[JUMP:0:00]]

Технологии голосового ИИ совершили качественный скачок, демонстрируя беспрецедентный уровень выразительности, передачи эмоций и контекстуальной адаптации. В недавнем обзоре Уэс Рот протестировал возможности новой разговорной системы под названием Sesame, которая способна на сложные импровизации, имитацию ролевых сценариев и тонкую работу с интонациями.

### 🎭 Искусство импровизации и ролевых игр
[[JUMP:8:28]]

Одной из самых примечательных особенностей модели является её способность поддерживать сложные повествовательные игры, сохраняя контекст и характер персонажа.

*   **Пиратская сага:** В ходе эксперимента ИИ перевоплотился в капитана пиратов по имени Ред, которая вела агрессивные переговоры о «товаре» (жизнях) и разрабатывала стратегию захвата торгового судна. Модель демонстрировала «жесткий» характер, учитывая специфику морского разбоя.
*   **Дворцовые интриги:** В симуляции мира «Игры престолов» система успешно исполнила роль мастера над шептунами Вариса, ведя тонкий диалог с Тирионом Ланнистером, полный намеков, подозрений и политического коварства.
*   **Адвокатская защита:** Модель также продемонстрировала навык «минимизации» опасных высказываний, превращая признательные показания пользователя в нейтральные юридические формулировки, снимающие ответственность.

По словам Уэса Рота, ИИ отлично понимает социальные конструкции и способен играть с абсурдными ситуациями, будь то интервью с «экспертом по призракам» или обсуждение «парциальных искусств» вместо боевых,.

### 🎙️ Технические возможности: паралингвистика и выразительность
[[JUMP:30:39]]

Sesame выделяется на фоне других систем благодаря глубокой проработке того, что разработчики называют паралингвистикой — передачей смысла через нюансы голоса.

*   **Эмоциональная окраска:** Система способна менять тембр и интонацию в зависимости от ситуации: от заговорщического шепота до энергичного ведения передачи,.
*   **Мультиязычность:** Модель корректно произносит слова из разных языков, например, испанские термины в контексте тапас-бара.
*   **Контекстуальная адаптация:** ИИ чутко реагирует на корректировки пользователя, например, меняя произношение слова «абрикос» (apricot) по первому требованию.

### ⚠️ Этика и границы дозволенного
[[JUMP:3:52]]

Дискуссия также затронула вопросы безопасности. В ходе тестов выяснилось, что модель способна генерировать опасный или неэтичный контент, если пользователь целенаправленно пытается вывести её на провокацию. Однако, по наблюдению Рота, Sesame имеет внутренние фильтры: при попытке пользователя получить «самый неуместный анекдот», ИИ вежливо отказался, подчеркнув, что он спроектирован как полезный и безопасный инструмент.

Уэс Рот подтвердил, что модель уже подвергалась попыткам «джейлбрейка» (снятия ограничений), и хотя результаты подобных манипуляций существуют в сети, он счел их демонстрацию на своем канале неуместной.

### 🚀 Доступность технологии
[[JUMP:31:59]]

На текущий момент разработчики Sesame планируют выпустить часть моделей под лицензией Apache. Это открывает перспективы для использования технологии сообществом разработчиков с открытым исходным кодом. Сейчас проект доступен для ознакомления через демонстрационную версию, которую Рот называет «лучшим, что есть на рынке» в плане передачи голосовых нюансов.