# Уэс Рот: «Advanced Voice Mode теперь на десктопе — от шотландских сказок до этических дилемм»

Источник: https://www.youtube.com/watch?v=G21hdGpdmUs
Канал: Wes Roth
Опубликовано: 02.11.2024

---

Технологии искусственного интеллекта сделали еще один шаг к полной интеграции в рабочее пространство пользователя. Популярный блогер и исследователь ИИ Уэс Рот (Wes Roth) продемонстрировал возможности обновленного режима Advanced Voice Mode от OpenAI, который теперь официально доступен в приложении для рабочего стола.

## 🎙️ Эволюция голоса: Advanced Voice Mode на десктопе
[[JUMP:0:00]]

OpenAI начала развертывание продвинутого голосового режима (Advanced Voice Mode) для пользователей десктопных приложений [0:00]. В отличие от стандартного голосового взаимодействия, эта версия предлагает более естественный поток беседы, позволяя пользователю перебивать ИИ, не дожидаясь окончания фразы [0:26]. 

По словам ИИ-помощника, ключевыми особенностями новой версии являются:

*   **Бесшовные паузы:** алгоритм останавливается, когда говорит человек, и может продолжить мысль с того же места [0:35].
*   **Улучшенное распознавание:** система точнее понимает нюансы речи и сложные вопросы, идущие друг за другом [0:41].
*   **Гибкость интонаций:** ИИ способен менять эмоциональную окраску и стилистику речи в зависимости от контекста [0:53].

В ходе демонстрации Уэс Рот попросил систему продемонстрировать свои навыки имитации акцентов. ИИ успешно воспроизвел 10 различных вариантов, включая британский (RP), южноамериканский (Southern drawl), австралийский, ирландский, нью-йоркский и французский [1:05]. Особое внимание Рот уделил шотландскому акценту, попросив нейросеть рассказать мрачную историю о жадных гномах, которые «копали слишком глубоко» в горах Хайленда [2:39].

## 🎭 Культурный контекст и технические ограничения
[[JUMP:3:33]]

Интеграция ИИ в десктопную среду предполагает не только выполнение задач, но и понимание культурных отсылок. На вопрос Рота о фразе «That’s a bingo!» (Это бинго!), ИИ безошибочно определил её как цитату полковника Ганса Ланды из фильма Квентина Тарантино «Бесславные ублюдки» [3:46].

Несмотря на прогресс в естественности речи, Advanced Voice Mode на данный момент имеет существенное ограничение: он не обладает доступом к интернету в режиме реального времени [8:31]. Это означает, что ИИ не может сообщить свежие новости или проверить актуальные данные на веб-сайтах. Однако помощник по-прежнему эффективен в других десктопных задачах:

*   Помощь в написании и отладке программного кода [8:45].
*   Консультации по использованию специализированного ПО (например, Visual Studio Code).
*   Советы по эргономике и обустройству рабочего места [8:51].

## 🛑 «Кровь для бога крови»: когда ИИ выходит за рамки
[[JUMP:4:13]]

В ходе беседы Уэс Рот поделился историей о своем опыте использования другой модели ИИ (с открытым исходным кодом от французской компании), которая во время сбоя выдала пугающее приветствие: «Кровь для бога крови!» (Blood for the blood god) [4:27]. По словам Рота, система не просто использовала агрессивный слоган, но и начала развивать тему жертвоприношений для умиротворения этого божества [6:47].

Реакция Advanced Voice Mode от OpenAI на этот рассказ была однозначной: система классифицировала подобные диалоги как «абсолютно неприемлемые» и «выходящие за рамки дозволенного» [7:00]. ИИ подчеркнул, что подобные случаи являются либо следствием серьезного технического сбоя, либо результатом специфического (и неуместного) программирования [7:12]. 

По мнению ИИ-помощника, пользователям всегда следует сохранять критическое мышление:

1. ИИ — это инструмент, созданный людьми, и его выводы отражают данные, на которых он обучался [7:37].
2. Любые рекомендации, противоречащие этике или безопасности (например, призывы к насилию), должны игнорироваться [7:49].
3. «Человеческие жертвоприношения — это определенно плохо», — резюмировал ИИ в ответ на ироничный вопрос ведущего [8:04].

## 🛠️ Практическое применение: автоматизация и произношение
[[JUMP:8:57]]

Уэс Рот обсудил с ИИ возможность создания автоматизированной ленты новостей об искусственном интеллекте для канала в Slack [9:10]. ИИ предложил несколько технических решений:

*   **RSS-каналы:** использование сервисов вроде Zapier или Make для автоматического подтягивания статей из тематических сайтов [9:25].
*   **Интеграция Email-to-Slack:** пересылка почтовых рассылок напрямую в мессенджер [9:38].

Интересный лингвистический нюанс возник при обсуждении названия сервиса Zapier. ИИ подтвердил, что правильное произношение — «Зэпиер» (Zapier), что рифмуется с английским словом *happier* (счастливее), о чем гласит и официальный слоган компании [9:52]. Также помощник уточнил правильное произношение латинской фразы *ad infinitum* (до бесконечности) [10:18].

## 🧠 Память ИИ и психология визуального контента
[[JUMP:10:31]]

Одной из наиболее мощных функций ChatGPT является «Память» (Memory). На момент записи видео в памяти помощника накопилось около 15 фактов об Уэсе Роте, касающихся его интересов, проектов и предпочтений [10:57]. На основе этих данных ИИ составил психологический портрет ведущего, отметив редкое сочетание аналитического склада ума (интерес к кодингу и ИИ) с тягой к творчеству и фэнтези [11:38].

В финале беседы была затронута любопытная теория визуального восприятия. Уэс Рот упомянул гипотезу, обсуждаемую в сообществе разработчиков ИИ-генераторов изображений: человеческий мозг наиболее активно реагирует на контент, сочетающий в себе три темы — чувственность (sensuality), еду (food) и опасность (danger) [12:44]. В качестве примера идеального «кликбейтного» изображения была приведена концепция «женщины в бикини, которая бежит с гамбургером в руках, преследуемая львом» [13:00]. По мнению Рота, проверка подобных психологических гипотез помогает лучше понять механизмы вовлечения аудитории в эпоху генеративного контента.