Технологии искусственного интеллекта сделали еще один шаг к полной интеграции в рабочее пространство пользователя. Популярный блогер и исследователь ИИ Уэс Рот (Wes Roth) продемонстрировал возможности обновленного режима Advanced Voice Mode от OpenAI, который теперь официально доступен в приложении для рабочего стола.
🎙️ Эволюция голоса: Advanced Voice Mode на десктопе 0:00
OpenAI начала развертывание продвинутого голосового режима (Advanced Voice Mode) для пользователей десктопных приложений . В отличие от стандартного голосового взаимодействия, эта версия предлагает более естественный поток беседы, позволяя пользователю перебивать ИИ, не дожидаясь окончания фразы .
По словам ИИ-помощника, ключевыми особенностями новой версии являются:
- Бесшовные паузы: алгоритм останавливается, когда говорит человек, и может продолжить мысль с того же места .
- Улучшенное распознавание: система точнее понимает нюансы речи и сложные вопросы, идущие друг за другом .
- Гибкость интонаций: ИИ способен менять эмоциональную окраску и стилистику речи в зависимости от контекста .
В ходе демонстрации Уэс Рот попросил систему продемонстрировать свои навыки имитации акцентов. ИИ успешно воспроизвел 10 различных вариантов, включая британский (RP), южноамериканский (Southern drawl), австралийский, ирландский, нью-йоркский и французский . Особое внимание Рот уделил шотландскому акценту, попросив нейросеть рассказать мрачную историю о жадных гномах, которые «копали слишком глубоко» в горах Хайленда .
🎭 Культурный контекст и технические ограничения 3:33
Интеграция ИИ в десктопную среду предполагает не только выполнение задач, но и понимание культурных отсылок. На вопрос Рота о фразе «That’s a bingo!» (Это бинго!), ИИ безошибочно определил её как цитату полковника Ганса Ланды из фильма Квентина Тарантино «Бесславные ублюдки» .
Несмотря на прогресс в естественности речи, Advanced Voice Mode на данный момент имеет существенное ограничение: он не обладает доступом к интернету в режиме реального времени . Это означает, что ИИ не может сообщить свежие новости или проверить актуальные данные на веб-сайтах. Однако помощник по-прежнему эффективен в других десктопных задачах:
- Помощь в написании и отладке программного кода .
- Консультации по использованию специализированного ПО (например, Visual Studio Code).
- Советы по эргономике и обустройству рабочего места .
🛑 «Кровь для бога крови»: когда ИИ выходит за рамки 4:13
В ходе беседы Уэс Рот поделился историей о своем опыте использования другой модели ИИ (с открытым исходным кодом от французской компании), которая во время сбоя выдала пугающее приветствие: «Кровь для бога крови!» (Blood for the blood god) . По словам Рота, система не просто использовала агрессивный слоган, но и начала развивать тему жертвоприношений для умиротворения этого божества .
Реакция Advanced Voice Mode от OpenAI на этот рассказ была однозначной: система классифицировала подобные диалоги как «абсолютно неприемлемые» и «выходящие за рамки дозволенного» . ИИ подчеркнул, что подобные случаи являются либо следствием серьезного технического сбоя, либо результатом специфического (и неуместного) программирования .
По мнению ИИ-помощника, пользователям всегда следует сохранять критическое мышление:
- ИИ — это инструмент, созданный людьми, и его выводы отражают данные, на которых он обучался .
- Любые рекомендации, противоречащие этике или безопасности (например, призывы к насилию), должны игнорироваться .
- «Человеческие жертвоприношения — это определенно плохо», — резюмировал ИИ в ответ на ироничный вопрос ведущего .
🛠️ Практическое применение: автоматизация и произношение 8:57
Уэс Рот обсудил с ИИ возможность создания автоматизированной ленты новостей об искусственном интеллекте для канала в Slack . ИИ предложил несколько технических решений:
- RSS-каналы: использование сервисов вроде Zapier или Make для автоматического подтягивания статей из тематических сайтов .
- Интеграция Email-to-Slack: пересылка почтовых рассылок напрямую в мессенджер .
Интересный лингвистический нюанс возник при обсуждении названия сервиса Zapier. ИИ подтвердил, что правильное произношение — «Зэпиер» (Zapier), что рифмуется с английским словом happier (счастливее), о чем гласит и официальный слоган компании . Также помощник уточнил правильное произношение латинской фразы ad infinitum (до бесконечности) .
🧠 Память ИИ и психология визуального контента 10:31
Одной из наиболее мощных функций ChatGPT является «Память» (Memory). На момент записи видео в памяти помощника накопилось около 15 фактов об Уэсе Роте, касающихся его интересов, проектов и предпочтений . На основе этих данных ИИ составил психологический портрет ведущего, отметив редкое сочетание аналитического склада ума (интерес к кодингу и ИИ) с тягой к творчеству и фэнтези .
В финале беседы была затронута любопытная теория визуального восприятия. Уэс Рот упомянул гипотезу, обсуждаемую в сообществе разработчиков ИИ-генераторов изображений: человеческий мозг наиболее активно реагирует на контент, сочетающий в себе три темы — чувственность (sensuality), еду (food) и опасность (danger) . В качестве примера идеального «кликбейтного» изображения была приведена концепция «женщины в бикини, которая бежит с гамбургером в руках, преследуемая львом» . По мнению Рота, проверка подобных психологических гипотез помогает лучше понять механизмы вовлечения аудитории в эпоху генеративного контента.