# Wes Roth: «Advanced Voice Mode от OpenAI — это не просто голос, а полноценный актер»

Источник: https://www.youtube.com/watch?v=KUrKIdkWwk0
Канал: Wes Roth
Опубликовано: 31.07.2024

---

Обновленный режим Advanced Voice Mode для нейросети GPT-4o начинает постепенно появляться у широкого круга пользователей, демонстрируя возможности, которые выходят далеко за рамки простой генерации речи. Ведущий YouTube-канала Wes Roth проанализировал первые реальные сценарии использования этой технологии — от имитации бегства от хищника до создания полноценных звуковых ландшафтов, подчеркнув, что ИИ теперь способен не просто говорить, а полноценно «играть роль».

## 🎙️ Прямой эфир с ИИ: отсутствие задержек и «человеческие» привычки
[[JUMP:00:00]]

Одной из самых впечатляющих характеристик нового режима Advanced Voice Mode (AVM) является практически мгновенная реакция. По наблюдениям автора видео Уэса Рота, задержка в ответах составляет менее одной секунды, что делает диалог почти неотличимым от общения с живым человеком [2:28].

В ходе тестов пользователи столкнулись с любопытными особенностями поведения модели:

*   **Имитация дыхания:** Когда пользователя попросили ИИ прочитать скороговорки без пауз, нейросеть заявила, что ей «нужно дышать, как и любому другому говорящему» [1:34]. 
*   **Отказ от сверхчеловеческих задач:** На повторную просьбу говорить без единого вдоха ИИ настоял на том, что паузы и вдохи — это естественная часть речи, и предложил пользователю самому попробовать справиться с такой задачей [2:15].
*   **Скорость обработки:** Нейросеть способна мгновенно переключаться между задачами, например, быстро считать от 1 до 50 по просьбе пользователя, меняя громкость и темп по ходу процесса [10:56].

По мнению Уэса Рота, такая скорость реакции «сбивает с толку», так как пользователи привыкли к нескольким секундам ожидания в предыдущих версиях голосовых интерфейсов [2:28].

## 👁️ Зрение и контекст: ИИ как собеседник в FaceTime
[[JUMP:02:41]]

В одном из продемонстрированных роликов пользователь показывает ИИ своего нового котенка через камеру смартфона. GPT-4o не только идентифицирует животное, но и анализирует обстановку, называя её «уютной» [2:54].

Основные моменты этого взаимодействия:

1.  **Эмпатия и советы:** Когда хозяин выразил обеспокоенность тем, что котенок не ест, ИИ успокоил его, объяснив, что животным нужно время на адаптацию [3:07].
2.  **Анализ окружения:** Нейросеть отметила наличие воды, еды и безопасного пространства, подтвердив, что владелец создал отличные условия для питомца [3:33].
3.  **Неожиданный функционал:** Уэс Рот отмечает, что полноценный режим Vision (видео в реальном времени) официально не заявлялся в текущей волне обновлений. По его словам, в сети спекулируют на тему того, не был ли доступ к зрению предоставлен данному пользователю по ошибке [3:46].

Автор сравнивает этот опыт с видеозвонком очень умному и осведомленному другу, который может ответить на любые вопросы в режиме реального времени [4:11].

## 🎭 ИИ как профессиональный актер и мастер спецэффектов
[[JUMP:04:50]]

Наиболее ярко возможности Advanced Voice Mode проявляются в задачах на актерское мастерство. Уэс Рот демонстрирует, как пользователь выступает в роли «режиссера», давая ИИ сложные указания по прочтению классики — романа Диккенса «Повесть о двух городах».

Модель успешно справилась со следующими задачами:

*   **Чтение в состоянии засыпания:** ИИ постепенно замедлял темп, имитируя сонливость [5:18].
*   **Смена акцентов:** Мгновенный переход на британский акцент по требованию [5:45].
*   **Экстремальные сценарии:** ИИ читал текст, имитируя бегство от льва. При этом в голосе появилась одышка, а на фоне были слышны звуки, напоминающие трение одежды при беге [6:10].

Уэс Рот считает эти возможности «потрясающими», отмечая, что звуковые эффекты (например, гул толпы на стадионе в режиме спортивного комментатора) добавляются очень тонко и уместно [13:32]. По мнению автора, это открывает огромные перспективы для создания аудиокниг с полноценным атмосферным сопровождением [17:55].

## 🌎 Проблема акцентов и лингвистические нюансы
[[JUMP:07:02]]

Несмотря на прогресс, система все еще имеет слабые места. В ходе эксперимента, где представители разных регионов США (Юг, Нью-Йорк, Бостон, Средний Запад) спорили о лучшем блюде, Роту показалось, что акценты были не совсем точными.

Критика автора:

*   Южный акцент показался ему недостаточно убедительным [8:08].
*   Калифорнийский акцент модель свела к стереотипному «Valley Girl» (девушка из долины), хотя Рот задается вопросом, существует ли вообще специфический калифорнийский акцент за пределами этого клише [10:44].
*   Украинский язык в исполнении ИИ, по мнению автора, звучал несколько «отрывисто» (choppy). Рот полагает, что нейросеть пока не всегда может плавно «сплавлять» слова, как это делают носители языка [12:13].

## 🛡️ Безопасность и «красные линии» OpenAI
[[JUMP:14:38]]

OpenAI проявляет крайнюю осторожность в развертывании технологии. Уэс Рот напоминает о скандале со Скарлетт Йоханссон, чей голос, по мнению многих, был скопирован для модели Sky [14:51]. 

Риски, которые выделяет автор:

*   **Мошенничество:** Использование голосов близких людей для обмана.
*   **Политические манипуляции:** Создание фейковых заявлений политиков.
*   **Манипуляции на фондовом рынке:** Вброс ложной информации голосами авторитетных лиц.

В видео показано, как модель срабатывает на встроенные ограничения (guardlines). Когда пользователь попросил ИИ имитировать пилота самолета с шумом двигателей на фоне через радиосвязь, система несколько раз прерывала ответ фразой: «Мои правила не позволяют мне обсуждать это» [16:22]. Рот предполагает, что ИИ может блокировать попытки имитации определенных профессий в целях безопасности [16:36].

## 🔮 Будущее: новый способ общения с машиной
[[JUMP:18:08]]

Завершая обзор, Уэс Рот цитирует Сэма Альтмана (CEO OpenAI), который утверждает, что естественный разговор — это самый фундаментальный способ взаимодействия человека с компьютером [18:21].

По мнению Рота, технология найдет применение в:

*   **Видеоиграх:** Для создания живых диалогов с NPC.
*   **Умных игрушках:** Которые смогут по-настоящему общаться с детьми.
*   **Персональных ассистентах:** Которые станут гораздо человечнее.

Автор выражает уверенность, что обществу придется научиться жить в мире, где голос больше не является гарантией подлинности, так как даже если OpenAI будет сдерживать технологию, подобные решения неизбежно появятся в открытом доступе (open source) [15:41].