Wes Roth: «Advanced Voice Mode от OpenAI — это не просто голос, а полноценный актер»

Wes Roth 66,2 тыс. 18 мин 4 мин 31.07.2024
Главное

Обновленный режим Advanced Voice Mode для нейросети GPT-4o начинает постепенно появляться у широкого круга пользователей, демонстрируя возможности, которые выходят далеко за рамки простой генерации речи. Ведущий YouTube-канала Wes Roth проанализировал первые реальные сценарии использования этой технологии — от имитации бегства от хищника до создания полноценных звуковых ландшафтов, подчеркнув, что ИИ теперь способен не просто говорить, а полноценно «играть роль».

🎙️ Прямой эфир с ИИ: отсутствие задержек и «человеческие» привычки 0:00

Одной из самых впечатляющих характеристик нового режима Advanced Voice Mode (AVM) является практически мгновенная реакция. По наблюдениям автора видео Уэса Рота, задержка в ответах составляет менее одной секунды, что делает диалог почти неотличимым от общения с живым человеком .

В ходе тестов пользователи столкнулись с любопытными особенностями поведения модели:

По мнению Уэса Рота, такая скорость реакции «сбивает с толку», так как пользователи привыкли к нескольким секундам ожидания в предыдущих версиях голосовых интерфейсов .

👁️ Зрение и контекст: ИИ как собеседник в FaceTime 2:41

В одном из продемонстрированных роликов пользователь показывает ИИ своего нового котенка через камеру смартфона. GPT-4o не только идентифицирует животное, но и анализирует обстановку, называя её «уютной» .

Основные моменты этого взаимодействия:

  1. Эмпатия и советы: Когда хозяин выразил обеспокоенность тем, что котенок не ест, ИИ успокоил его, объяснив, что животным нужно время на адаптацию .
  2. Анализ окружения: Нейросеть отметила наличие воды, еды и безопасного пространства, подтвердив, что владелец создал отличные условия для питомца .
  3. Неожиданный функционал: Уэс Рот отмечает, что полноценный режим Vision (видео в реальном времени) официально не заявлялся в текущей волне обновлений. По его словам, в сети спекулируют на тему того, не был ли доступ к зрению предоставлен данному пользователю по ошибке .

Автор сравнивает этот опыт с видеозвонком очень умному и осведомленному другу, который может ответить на любые вопросы в режиме реального времени .

🎭 ИИ как профессиональный актер и мастер спецэффектов 4:50

Наиболее ярко возможности Advanced Voice Mode проявляются в задачах на актерское мастерство. Уэс Рот демонстрирует, как пользователь выступает в роли «режиссера», давая ИИ сложные указания по прочтению классики — романа Диккенса «Повесть о двух городах».

Модель успешно справилась со следующими задачами:

Уэс Рот считает эти возможности «потрясающими», отмечая, что звуковые эффекты (например, гул толпы на стадионе в режиме спортивного комментатора) добавляются очень тонко и уместно . По мнению автора, это открывает огромные перспективы для создания аудиокниг с полноценным атмосферным сопровождением .

🌎 Проблема акцентов и лингвистические нюансы 7:02

Несмотря на прогресс, система все еще имеет слабые места. В ходе эксперимента, где представители разных регионов США (Юг, Нью-Йорк, Бостон, Средний Запад) спорили о лучшем блюде, Роту показалось, что акценты были не совсем точными.

Критика автора:

🛡️ Безопасность и «красные линии» OpenAI 14:38

OpenAI проявляет крайнюю осторожность в развертывании технологии. Уэс Рот напоминает о скандале со Скарлетт Йоханссон, чей голос, по мнению многих, был скопирован для модели Sky .

Риски, которые выделяет автор:

В видео показано, как модель срабатывает на встроенные ограничения (guardlines). Когда пользователь попросил ИИ имитировать пилота самолета с шумом двигателей на фоне через радиосвязь, система несколько раз прерывала ответ фразой: «Мои правила не позволяют мне обсуждать это» . Рот предполагает, что ИИ может блокировать попытки имитации определенных профессий в целях безопасности .

🔮 Будущее: новый способ общения с машиной 18:08

Завершая обзор, Уэс Рот цитирует Сэма Альтмана (CEO OpenAI), который утверждает, что естественный разговор — это самый фундаментальный способ взаимодействия человека с компьютером .

По мнению Рота, технология найдет применение в:

Автор выражает уверенность, что обществу придется научиться жить в мире, где голос больше не является гарантией подлинности, так как даже если OpenAI будет сдерживать технологию, подобные решения неизбежно появятся в открытом доступе (open source) .

💬 Цитаты

«Я должен делать вдохи и паузы, как и любой другой, кто говорит вслух.»

«Это почти как FaceTime с очень умным и знающим другом, который может ответить на все ваши вопросы.»

«Нам как обществу придется повзрослеть и научиться справляться с этой чепухой, потому что это будет повсюду.»

👥 Спикер
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Advanced Voice Mode (AVM)
Новый режим голосового взаимодействия GPT-4o с низкой задержкой и расширенными эмоциональными возможностями.
Latency
Задержка между командой пользователя и ответом системы.
Jailbreak
Метод обхода встроенных ограничений безопасности и правил поведения ИИ-модели.
📊 Цифры
🗓 Хронология
  1. Май 2024 Весенний анонс OpenAI (Spring Announcement), где впервые был показан GPT-4o.
  2. Июль 2024 Начало альфа-тестирования и постепенного развертывания Advanced Voice Mode для пользователей ChatGPT Plus.
⚖️ Другая сторона
Искусственный интеллект OpenAI GPT-4o Advanced Voice Mode Wes Roth Sam Altman