Обновленный режим Advanced Voice Mode для нейросети GPT-4o начинает постепенно появляться у широкого круга пользователей, демонстрируя возможности, которые выходят далеко за рамки простой генерации речи. Ведущий YouTube-канала Wes Roth проанализировал первые реальные сценарии использования этой технологии — от имитации бегства от хищника до создания полноценных звуковых ландшафтов, подчеркнув, что ИИ теперь способен не просто говорить, а полноценно «играть роль».
🎙️ Прямой эфир с ИИ: отсутствие задержек и «человеческие» привычки 0:00
Одной из самых впечатляющих характеристик нового режима Advanced Voice Mode (AVM) является практически мгновенная реакция. По наблюдениям автора видео Уэса Рота, задержка в ответах составляет менее одной секунды, что делает диалог почти неотличимым от общения с живым человеком .
В ходе тестов пользователи столкнулись с любопытными особенностями поведения модели:
- Имитация дыхания: Когда пользователя попросили ИИ прочитать скороговорки без пауз, нейросеть заявила, что ей «нужно дышать, как и любому другому говорящему» .
- Отказ от сверхчеловеческих задач: На повторную просьбу говорить без единого вдоха ИИ настоял на том, что паузы и вдохи — это естественная часть речи, и предложил пользователю самому попробовать справиться с такой задачей .
- Скорость обработки: Нейросеть способна мгновенно переключаться между задачами, например, быстро считать от 1 до 50 по просьбе пользователя, меняя громкость и темп по ходу процесса .
По мнению Уэса Рота, такая скорость реакции «сбивает с толку», так как пользователи привыкли к нескольким секундам ожидания в предыдущих версиях голосовых интерфейсов .
👁️ Зрение и контекст: ИИ как собеседник в FaceTime 2:41
В одном из продемонстрированных роликов пользователь показывает ИИ своего нового котенка через камеру смартфона. GPT-4o не только идентифицирует животное, но и анализирует обстановку, называя её «уютной» .
Основные моменты этого взаимодействия:
- Эмпатия и советы: Когда хозяин выразил обеспокоенность тем, что котенок не ест, ИИ успокоил его, объяснив, что животным нужно время на адаптацию .
- Анализ окружения: Нейросеть отметила наличие воды, еды и безопасного пространства, подтвердив, что владелец создал отличные условия для питомца .
- Неожиданный функционал: Уэс Рот отмечает, что полноценный режим Vision (видео в реальном времени) официально не заявлялся в текущей волне обновлений. По его словам, в сети спекулируют на тему того, не был ли доступ к зрению предоставлен данному пользователю по ошибке .
Автор сравнивает этот опыт с видеозвонком очень умному и осведомленному другу, который может ответить на любые вопросы в режиме реального времени .
🎭 ИИ как профессиональный актер и мастер спецэффектов 4:50
Наиболее ярко возможности Advanced Voice Mode проявляются в задачах на актерское мастерство. Уэс Рот демонстрирует, как пользователь выступает в роли «режиссера», давая ИИ сложные указания по прочтению классики — романа Диккенса «Повесть о двух городах».
Модель успешно справилась со следующими задачами:
- Чтение в состоянии засыпания: ИИ постепенно замедлял темп, имитируя сонливость .
- Смена акцентов: Мгновенный переход на британский акцент по требованию .
- Экстремальные сценарии: ИИ читал текст, имитируя бегство от льва. При этом в голосе появилась одышка, а на фоне были слышны звуки, напоминающие трение одежды при беге .
Уэс Рот считает эти возможности «потрясающими», отмечая, что звуковые эффекты (например, гул толпы на стадионе в режиме спортивного комментатора) добавляются очень тонко и уместно . По мнению автора, это открывает огромные перспективы для создания аудиокниг с полноценным атмосферным сопровождением .
🌎 Проблема акцентов и лингвистические нюансы 7:02
Несмотря на прогресс, система все еще имеет слабые места. В ходе эксперимента, где представители разных регионов США (Юг, Нью-Йорк, Бостон, Средний Запад) спорили о лучшем блюде, Роту показалось, что акценты были не совсем точными.
Критика автора:
- Южный акцент показался ему недостаточно убедительным .
- Калифорнийский акцент модель свела к стереотипному «Valley Girl» (девушка из долины), хотя Рот задается вопросом, существует ли вообще специфический калифорнийский акцент за пределами этого клише .
- Украинский язык в исполнении ИИ, по мнению автора, звучал несколько «отрывисто» (choppy). Рот полагает, что нейросеть пока не всегда может плавно «сплавлять» слова, как это делают носители языка .
🛡️ Безопасность и «красные линии» OpenAI 14:38
OpenAI проявляет крайнюю осторожность в развертывании технологии. Уэс Рот напоминает о скандале со Скарлетт Йоханссон, чей голос, по мнению многих, был скопирован для модели Sky .
Риски, которые выделяет автор:
- Мошенничество: Использование голосов близких людей для обмана.
- Политические манипуляции: Создание фейковых заявлений политиков.
- Манипуляции на фондовом рынке: Вброс ложной информации голосами авторитетных лиц.
В видео показано, как модель срабатывает на встроенные ограничения (guardlines). Когда пользователь попросил ИИ имитировать пилота самолета с шумом двигателей на фоне через радиосвязь, система несколько раз прерывала ответ фразой: «Мои правила не позволяют мне обсуждать это» . Рот предполагает, что ИИ может блокировать попытки имитации определенных профессий в целях безопасности .
🔮 Будущее: новый способ общения с машиной 18:08
Завершая обзор, Уэс Рот цитирует Сэма Альтмана (CEO OpenAI), который утверждает, что естественный разговор — это самый фундаментальный способ взаимодействия человека с компьютером .
По мнению Рота, технология найдет применение в:
- Видеоиграх: Для создания живых диалогов с NPC.
- Умных игрушках: Которые смогут по-настоящему общаться с детьми.
- Персональных ассистентах: Которые станут гораздо человечнее.
Автор выражает уверенность, что обществу придется научиться жить в мире, где голос больше не является гарантией подлинности, так как даже если OpenAI будет сдерживать технологию, подобные решения неизбежно появятся в открытом доступе (open source) .