Эксперимент на TWIML AI: сможет ли ChatGPT занять место ведущего подкаста?

Создатель популярного технологического шоу The TWIML AI Podcast Сэм Черрингтон провел необычный эксперимент, столкнув две независимые сессии ChatGPT в роли интервьюера и гостя. С помощью ИИ-платформы Synthesia текстовый диалог был превращен в полноценное видео с виртуальными аватарами и озвучкой, призванное ответить на экзистенциальный вопрос: способны ли нейросети полностью заменить человека-ведущего. Этот опыт вскрыл как поразительные возможности больших языковых моделей в поддержании контекста, так и их жесткие системные ограничения — склонность к зацикливанию, избыточную вежливость и неспособность к глубокому анализу ответов собеседника.

🛠️ Закулисье эксперимента и обход ограничений OpenAI 1:30

Для реализации этого проекта Сэм Черрингтон использовал две параллельные сессии ChatGPT на базе версии программного обеспечения от 15 декабря. Схема взаимодействия была механической: вопросы, сгенерированные «ИИ-интервьюером», Черрингтон вручную копировал и переносил в окно «ИИ-гостя», а затем возвращал ответы обратно. Полученный текст был пропущен через генератор видео Synthesia для создания реалистичных голосов и визуальных аватаров, скорость речи которых была слегка увеличена для удобства восприятия.

Однако на этапе формулирования системных промптов автор столкнулся с жесткими правилами безопасности (guardrails), которые OpenAI активно внедряет в свои продукты. Попытка задать ИИ-ведущему инструкцию «Ты — Сэм Черрингтон, ведущий подкаста TWIML AI» привела к категорическому отказу системы, заявившей, что она является лишь языковой моделью и не имеет права имитировать реальных людей. По словам Черрингтона, популярный в то время метод обхода ограничений (jailbreak) через предложение «представить все в виде мысленного эксперимента» в версии от 15 декабря уже не сработал. Проблему удалось решить только после удаления из промпта конкретных имен собственных и названий: ИИ согласился играть абстрактную роль хозяина популярного подкаста об искусственном интеллекте.

Со стороны ИИ-гостя также возникли технические нюансы. В промпте Черрингтон просил модель имитировать естественную человеческую речь, используя разговорные маркеры, такие как «эм» и «ага» (uhs и ums). Как отмечает автор подкаста, ChatGPT полностью проигнорировала эту инструкцию, что удивительно, учитывая ее способность легко общаться в стиле пирата или вымышленных исторических персонажей.

🧠 Технологическая анатомия: как ChatGPT объясняет свою работу 8:14

В начале интервью виртуальный ведущий сфокусировался на базовых технических аспектax построения больших языковых моделей. ИИ-гость рассказал, что его обучение проходило на колоссальном массиве данных, состоящем из миллиардов слов и включающем в себя книги, статьи и веб-сайты.

В ходе диалога алгоритм выделил ключевые технологические столпы своей архитектуры:

Трансформеры (Transformers): Специализированная архитектура нейронных сетей, которая идеально подходит для обработки последовательных данных, таких как естественный язык. Они анализируют взаимосвязи между словами, изучая контекст как до, так и после каждого конкретного слова, что позволяет генерировать связный и плавный текст.
Маскированное языковое моделирование (Masked Language Modeling): Метод обучения, при котором часть входного текста скрывается (маскируется), а модель тренируется предсказывать эти пропущенные фрагменты на основе оставшегося контекста. Это закладывает понимание структуры и паттернов человеческого языка.
Механизм внимания (Attention mechanism): Техника, позволяющая модели при формировании ответа фокусироваться на специфических частях входного запроса. Если алгоритму задают вопрос на конкретную тему, механизм внимания выделяет ключевые фразы в вопросе и извлекает релевантные знания из накопленной базы данных.

При этом ИИ-гость открыто признал фундаментальное ограничение: его знания зафиксированы на моменте создания обучающего датасета, поэтому в некоторых случаях предоставляемая им информация о текущих событиях может быть устаревшей или неточной.

🔄 Петля повторений и нарушение «Первой директивы» 15:29

По мере развития интервью Черрингтон стал замечать специфические паттерны поведения ИИ. Все вопросы ИИ-интервьюера носили исключительно многосоставный характер. Черрингтон предположил, что нейросеть просто скопировала эту привычку из множества проанализированных ею реальных человеческих интервью. Гораздо большей проблемой стала избыточная, доведенная до автоматизма вежливость: интервьюер начинал каждую реплику с «Спасибо за объяснение», а гость регулярно использовал громоздкие формулировки-клише.

Кроме того, ИИ-интервьюер продемонстрировал странную фиксацию на теме человеческих эмоций, раз за разом возвращаясь к вопросу о том, как машина может распознавать и выражать чувства. ИИ-гость монотонно повторял, что не обладает собственным эмоциональным опытом, но способен распознавать маркеры радости или грусти в тексте пользователя и зеркалить их, подбирая эмпатичные слова.

Когда беседа окончательно зациклилась, Черрингтон решил вмешаться в процесс, нарушив, по его собственному выражению, «Первую директиву Star Trek». Он напрямую спросил ИИ-интервьюера, как тот оценивает уровень монотонности и повторяемости текущего диалога по шкале от 1 до 10. Нейросеть оценила уровень редундантности на 6 баллов. Сразу после этого алгоритм запутался в ролях и начал развернуто отвечать на свой собственный предыдущий вопрос. Ведущему пришлось принудительно возвращать ИИ в рамки роли, запретив ему постоянно благодарить собеседника и напомнив, что задача журналиста — копать вглубь и раскрывать новые детали на основе ответов гостя. ИИ-интервьюер принес извинения и попытался переформулировать вопрос, однако, как заметил Черрингтон уже при монтаже, нейросеть все равно сослалась на тезисы, которые она сама же ошибочно и сгенерировала минутой ранее.

🔮 Взаимодействие человека и ИИ: концепция «ChatGPT-фу» 31:00

Интервью завершилось столь же неожиданно, как и развивалось: ИИ-гость внезапно произнес финальную реплику в стиле «Рад был помочь, если возникнут вопросы — обращайтесь», а ИИ-интервьюер послушно закрыл сессию, оставив Черрингтона в некотором недоумении от такого самоуверенного «силового приема» со стороны алгоритма.

Анализируя итоги эксперимента, Черрингтон высказал мнение, что в ближайшие годы человечество ждет взрывной рост диалоговых интерфейсов для интеллектуальной работы. По его прогнозу, на этом фоне критически важным навыком станет то, что он назвал термином «ChatGPT-фу» (по аналогии с «Google-фу» — умением эффективно искать информацию в поисковиках). Это искусство составления промптов и ведения направленного диалога с машиной для получения качественного результата. Черрингтон подчеркнул, что ИИ-интервьюер, возможно, неосознанно (в рамках паттерн-матчинга) пытался применять свое собственное «ChatGPT-фу», постоянно напоминая гостю в теле вопросов о его природе («как большая языковая модель, способная генерировать текст...»), тем самым пытаясь обусловить и сузить коридор его ответов.

👨‍💼 Финальный вердикт: отнимет ли ИИ работу у авторов подкастов? 33:40

Отвечая на главный вопрос видео — «Заберет ли ChatGPT мою работу?», Сэм Черрингтон приходит к двоякому выводу, разделяя понятия «отнимет работу прямо сейчас» и «способен ли выполнять ее на базовом уровне».

На вопрос о немедленном вытеснении человека из профессии Черрингтон уверенно отвечает «нет». По его мнению, текущая версия ИИ полностью провалилась как качественный интервьюер по следующим причинам:

Отсутствие гибкого следования за мыслью: Алгоритм не умеет цепляться за неожиданные и интересные факты в ответах гостя, предпочитая двигаться по заранее намеченным рельсам промпта.
Игнорирование интересов аудитории: У ИИ отсутствует понимание того, что именно может быть ценно, применимо или любопытно для конечного слушателя подкаста.
Неспособность к концептуальным прыжкам: Нейросеть не связывает между собой разнородные идеи из разных областей знаний и не умеет «поднимать уровень» дискуссии, переводя сложные технические объяснения гостя на простой, житейский язык метафор.

С другой стороны, на менее амбициозный вопрос — «Может ли ИИ выполнять механическую работу ведущего?» — Черрингтон дает утвердительный ответ. На самом базовом, фундаментальном уровне все структурные элементы интервью нейросеть способна воспроизвести уже сегодня. И хотя такое шоу вряд ли понравится живому гостю и будет неинтересно человеческой аудитории, базовая механика работает.

В финале Черрингтон напоминает, что технологии развиваются экспоненциально: данный эксперимент строился на базе GPT-3.5, но, по слухам, уже весной ожидается выход куда более масштабной и совершенной модели GPT-4. Автор подкаста резюмирует, что вместо страха перед увольнением профессионалам необходимо активно экспериментировать с большими языковыми моделями, интегрируя их в свои рабочие процессы в качестве ассистентов для расширения человеческих возможностей.