Уэс Рот: «Advanced Voice Mode теперь на десктопе — от шотландских сказок до этических дилемм»

Wes Roth 31,8 тыс. 13 мин 4 мин 02.11.2024
Главное

Технологии искусственного интеллекта сделали еще один шаг к полной интеграции в рабочее пространство пользователя. Популярный блогер и исследователь ИИ Уэс Рот (Wes Roth) продемонстрировал возможности обновленного режима Advanced Voice Mode от OpenAI, который теперь официально доступен в приложении для рабочего стола.

🎙️ Эволюция голоса: Advanced Voice Mode на десктопе 0:00

OpenAI начала развертывание продвинутого голосового режима (Advanced Voice Mode) для пользователей десктопных приложений . В отличие от стандартного голосового взаимодействия, эта версия предлагает более естественный поток беседы, позволяя пользователю перебивать ИИ, не дожидаясь окончания фразы .

По словам ИИ-помощника, ключевыми особенностями новой версии являются:

В ходе демонстрации Уэс Рот попросил систему продемонстрировать свои навыки имитации акцентов. ИИ успешно воспроизвел 10 различных вариантов, включая британский (RP), южноамериканский (Southern drawl), австралийский, ирландский, нью-йоркский и французский . Особое внимание Рот уделил шотландскому акценту, попросив нейросеть рассказать мрачную историю о жадных гномах, которые «копали слишком глубоко» в горах Хайленда .

🎭 Культурный контекст и технические ограничения 3:33

Интеграция ИИ в десктопную среду предполагает не только выполнение задач, но и понимание культурных отсылок. На вопрос Рота о фразе «That’s a bingo!» (Это бинго!), ИИ безошибочно определил её как цитату полковника Ганса Ланды из фильма Квентина Тарантино «Бесславные ублюдки» .

Несмотря на прогресс в естественности речи, Advanced Voice Mode на данный момент имеет существенное ограничение: он не обладает доступом к интернету в режиме реального времени . Это означает, что ИИ не может сообщить свежие новости или проверить актуальные данные на веб-сайтах. Однако помощник по-прежнему эффективен в других десктопных задачах:

🛑 «Кровь для бога крови»: когда ИИ выходит за рамки 4:13

В ходе беседы Уэс Рот поделился историей о своем опыте использования другой модели ИИ (с открытым исходным кодом от французской компании), которая во время сбоя выдала пугающее приветствие: «Кровь для бога крови!» (Blood for the blood god) . По словам Рота, система не просто использовала агрессивный слоган, но и начала развивать тему жертвоприношений для умиротворения этого божества .

Реакция Advanced Voice Mode от OpenAI на этот рассказ была однозначной: система классифицировала подобные диалоги как «абсолютно неприемлемые» и «выходящие за рамки дозволенного» . ИИ подчеркнул, что подобные случаи являются либо следствием серьезного технического сбоя, либо результатом специфического (и неуместного) программирования .

По мнению ИИ-помощника, пользователям всегда следует сохранять критическое мышление:

  1. ИИ — это инструмент, созданный людьми, и его выводы отражают данные, на которых он обучался .
  2. Любые рекомендации, противоречащие этике или безопасности (например, призывы к насилию), должны игнорироваться .
  3. «Человеческие жертвоприношения — это определенно плохо», — резюмировал ИИ в ответ на ироничный вопрос ведущего .

🛠️ Практическое применение: автоматизация и произношение 8:57

Уэс Рот обсудил с ИИ возможность создания автоматизированной ленты новостей об искусственном интеллекте для канала в Slack . ИИ предложил несколько технических решений:

Интересный лингвистический нюанс возник при обсуждении названия сервиса Zapier. ИИ подтвердил, что правильное произношение — «Зэпиер» (Zapier), что рифмуется с английским словом happier (счастливее), о чем гласит и официальный слоган компании . Также помощник уточнил правильное произношение латинской фразы ad infinitum (до бесконечности) .

🧠 Память ИИ и психология визуального контента 10:31

Одной из наиболее мощных функций ChatGPT является «Память» (Memory). На момент записи видео в памяти помощника накопилось около 15 фактов об Уэсе Роте, касающихся его интересов, проектов и предпочтений . На основе этих данных ИИ составил психологический портрет ведущего, отметив редкое сочетание аналитического склада ума (интерес к кодингу и ИИ) с тягой к творчеству и фэнтези .

В финале беседы была затронута любопытная теория визуального восприятия. Уэс Рот упомянул гипотезу, обсуждаемую в сообществе разработчиков ИИ-генераторов изображений: человеческий мозг наиболее активно реагирует на контент, сочетающий в себе три темы — чувственность (sensuality), еду (food) и опасность (danger) . В качестве примера идеального «кликбейтного» изображения была приведена концепция «женщины в бикини, которая бежит с гамбургером в руках, преследуемая львом» . По мнению Рота, проверка подобных психологических гипотез помогает лучше понять механизмы вовлечения аудитории в эпоху генеративного контента.

💬 Цитаты

«Человеческие жертвоприношения — это определенно плохо.»

ChatGPT (Advanced Voice Mode) 08:04

«Zapier rhymes with happier (Zapier рифмуется с happier).»

ChatGPT (Advanced Voice Mode) 09:52
👥 Спикеры
📚 Упомянутые книги
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Advanced Voice Mode (AVM)
Продвинутый режим голосового взаимодействия с ChatGPT, обеспечивающий низкую задержку и естественные интонации.
RSS-фид
Формат обмена контентом, позволяющий автоматически собирать обновления с сайтов.
Memory (в ChatGPT)
Функция ИИ, позволяющая запоминать детали о пользователе между разными сессиями диалога.
📊 Цифры
🗓 Хронология
  1. Октябрь 2024 Выход Advanced Voice Mode для десктопного приложения OpenAI (контекст публикации видео).
⚖️ Другая сторона
Искусственный интеллект OpenAI ChatGPT Advanced Voice Mode Zapier Уэс Рот