Wes Roth: «Advanced Voice Mode от OpenAI — это не просто голос, а полноценный актер»

Обновленный режим Advanced Voice Mode для нейросети GPT-4o начинает постепенно появляться у широкого круга пользователей, демонстрируя возможности, которые выходят далеко за рамки простой генерации речи. Ведущий YouTube-канала Wes Roth проанализировал первые реальные сценарии использования этой технологии — от имитации бегства от хищника до создания полноценных звуковых ландшафтов, подчеркнув, что ИИ теперь способен не просто говорить, а полноценно «играть роль».

🎙️ Прямой эфир с ИИ: отсутствие задержек и «человеческие» привычки 0:00

Одной из самых впечатляющих характеристик нового режима Advanced Voice Mode (AVM) является практически мгновенная реакция. По наблюдениям автора видео Уэса Рота, задержка в ответах составляет менее одной секунды, что делает диалог почти неотличимым от общения с живым человеком .

В ходе тестов пользователи столкнулись с любопытными особенностями поведения модели:

Имитация дыхания: Когда пользователя попросили ИИ прочитать скороговорки без пауз, нейросеть заявила, что ей «нужно дышать, как и любому другому говорящему» .
Отказ от сверхчеловеческих задач: На повторную просьбу говорить без единого вдоха ИИ настоял на том, что паузы и вдохи — это естественная часть речи, и предложил пользователю самому попробовать справиться с такой задачей .
Скорость обработки: Нейросеть способна мгновенно переключаться между задачами, например, быстро считать от 1 до 50 по просьбе пользователя, меняя громкость и темп по ходу процесса .

По мнению Уэса Рота, такая скорость реакции «сбивает с толку», так как пользователи привыкли к нескольким секундам ожидания в предыдущих версиях голосовых интерфейсов .

👁️ Зрение и контекст: ИИ как собеседник в FaceTime 2:41

В одном из продемонстрированных роликов пользователь показывает ИИ своего нового котенка через камеру смартфона. GPT-4o не только идентифицирует животное, но и анализирует обстановку, называя её «уютной» .

Основные моменты этого взаимодействия:

Эмпатия и советы: Когда хозяин выразил обеспокоенность тем, что котенок не ест, ИИ успокоил его, объяснив, что животным нужно время на адаптацию .
Анализ окружения: Нейросеть отметила наличие воды, еды и безопасного пространства, подтвердив, что владелец создал отличные условия для питомца .
Неожиданный функционал: Уэс Рот отмечает, что полноценный режим Vision (видео в реальном времени) официально не заявлялся в текущей волне обновлений. По его словам, в сети спекулируют на тему того, не был ли доступ к зрению предоставлен данному пользователю по ошибке .

Автор сравнивает этот опыт с видеозвонком очень умному и осведомленному другу, который может ответить на любые вопросы в режиме реального времени .

🎭 ИИ как профессиональный актер и мастер спецэффектов 4:50

Наиболее ярко возможности Advanced Voice Mode проявляются в задачах на актерское мастерство. Уэс Рот демонстрирует, как пользователь выступает в роли «режиссера», давая ИИ сложные указания по прочтению классики — романа Диккенса «Повесть о двух городах».

Модель успешно справилась со следующими задачами:

Чтение в состоянии засыпания: ИИ постепенно замедлял темп, имитируя сонливость .
Смена акцентов: Мгновенный переход на британский акцент по требованию .
Экстремальные сценарии: ИИ читал текст, имитируя бегство от льва. При этом в голосе появилась одышка, а на фоне были слышны звуки, напоминающие трение одежды при беге .

Уэс Рот считает эти возможности «потрясающими», отмечая, что звуковые эффекты (например, гул толпы на стадионе в режиме спортивного комментатора) добавляются очень тонко и уместно . По мнению автора, это открывает огромные перспективы для создания аудиокниг с полноценным атмосферным сопровождением .

🌎 Проблема акцентов и лингвистические нюансы 7:02

Несмотря на прогресс, система все еще имеет слабые места. В ходе эксперимента, где представители разных регионов США (Юг, Нью-Йорк, Бостон, Средний Запад) спорили о лучшем блюде, Роту показалось, что акценты были не совсем точными.

Критика автора:

Южный акцент показался ему недостаточно убедительным .
Калифорнийский акцент модель свела к стереотипному «Valley Girl» (девушка из долины), хотя Рот задается вопросом, существует ли вообще специфический калифорнийский акцент за пределами этого клише .
Украинский язык в исполнении ИИ, по мнению автора, звучал несколько «отрывисто» (choppy). Рот полагает, что нейросеть пока не всегда может плавно «сплавлять» слова, как это делают носители языка .

🛡️ Безопасность и «красные линии» OpenAI 14:38

OpenAI проявляет крайнюю осторожность в развертывании технологии. Уэс Рот напоминает о скандале со Скарлетт Йоханссон, чей голос, по мнению многих, был скопирован для модели Sky .

Риски, которые выделяет автор:

Мошенничество: Использование голосов близких людей для обмана.
Политические манипуляции: Создание фейковых заявлений политиков.
Манипуляции на фондовом рынке: Вброс ложной информации голосами авторитетных лиц.

В видео показано, как модель срабатывает на встроенные ограничения (guardlines). Когда пользователь попросил ИИ имитировать пилота самолета с шумом двигателей на фоне через радиосвязь, система несколько раз прерывала ответ фразой: «Мои правила не позволяют мне обсуждать это» . Рот предполагает, что ИИ может блокировать попытки имитации определенных профессий в целях безопасности .

🔮 Будущее: новый способ общения с машиной 18:08

Завершая обзор, Уэс Рот цитирует Сэма Альтмана (CEO OpenAI), который утверждает, что естественный разговор — это самый фундаментальный способ взаимодействия человека с компьютером .

По мнению Рота, технология найдет применение в:

Видеоиграх: Для создания живых диалогов с NPC.
Умных игрушках: Которые смогут по-настоящему общаться с детьми.
Персональных ассистентах: Которые станут гораздо человечнее.

Автор выражает уверенность, что обществу придется научиться жить в мире, где голос больше не является гарантией подлинности, так как даже если OpenAI будет сдерживать технологию, подобные решения неизбежно появятся в открытом доступе (open source) .