Алекс Альберт: «Джейлбрейк ChatGPT — это общественная услуга»

В новом выпуске подкаста «The Cognitive Revolution» ведущий Нейтан Лабенц обсуждает феномен «джейлбрейка» (взлома этических ограничений) языковых моделей с создателем платформы jailbreakchat.com Алексом Альбертом. Собеседники подробно анализируют технические уязвимости современных нейросетей, методы обхода встроенных фильтров безопасности и компромиссы, на которые идут разработчики ради удержания рынка. В центре дискуссии — идея о том, что контролируемый публичный взлом ИИ-моделей является важной общественной услугой, помогающей выявить скрытые системные риски до того, как они нанесут реальный ущерб.

🛠️ От увлечения к централизованной базе: как появился проект jailbreakchat.com 2:13

Алекс Альберт рассказывает, что его интерес к большим языковым моделям начался с экспериментов в «песочнице» (playground) GPT-3, где он вместе с друзьями пытался обойти базовые фильтры и заставить систему генерировать забавные тексты. С релизом ChatGPT этот процесс приобрёл массовый характер: на платформе Reddit стали появляться специализированные сообщества, участники которых обменивались промптами для взлома. Однако этот обмен был хаотичным, а удачные находки быстро терялись в потоке публикаций.

Чтобы упорядочить исследования, Алекс Альберт создал сайт jailbreakchat.com. Изначально планировалось разделить ресурс на разделы под разные нейросети, но вскоре стало ясно, что уязвимости большинства моделей схожи. Платформа предложила пользователям удобный инструментарий: систему голосования за актуальные промпты, функцию быстрого копирования и генерацию коротких ссылок вместо громоздких текстовых блоков. По словам Алекса Альберта, это позволило замкнуть цикл обратной связи, предоставив ИИ-энтузиастам единую базу для итеративного улучшения методов тестирования моделей. При этом гость подчёркивает, что изначально занимался проектом исключительно ради развлечения и исследования возможностей мощнейшего инструмента в истории. «Люди думают, что если они не ученые и не работают в OpenAI, то не могут ни на что повлиять, но это не так — вы можете запустить волну», — заявляет Алекс Альберт.

📉 Обратная сторона безопасности: регрессия способностей ИИ 13:45

В ходе беседы участники затронули фундаментальную проблему: жёсткая настройка этических ограничений негативно сказывается на общей применимости технологий. Алекс Альберт утверждает, что обучение моделей с подкреплением на основе отзывов людей (RLHF) и тонкая настройка фильтров безопасности приводят к регрессии интеллектуальных способностей ИИ. В сообществе LessWrong распространено мнение, что это связано с «коллапсом мод» (mode collapse), из-за чего ответы нейросети становятся роботизированными, избыточно осторожными и узко ограниченными.

Нейтан Лабенц, делясь личным опытом работы в качестве официального редтимера (тестировщика безопасности) GPT-4, отмечает колоссальную разницу между ранней и финальной версиями. Ранняя модель была готова выполнить абсолютно любой запрос пользователя, пытаясь реализовать его во что бы то ни стало. Однако финальная версия ChatGPT перегружена защитными механизмами, что часто приводит к ложным срабатываниям и отказам выполнять безобидные команды. По мнению Алекса Альберта, ИИ должен блокировать только строго незаконные действия, зафиксированные в правовых кодексах (например, создание оружия или наркотиков), а во всех остальных «серых зонах» пользователям необходимо предоставить больше контроля. Он ссылается на позицию Сэма Альтмана, который в интервью Лексу Фридману заявлял, что ИИ не должен постоянно отчитывать пользователя и выдавать шаблонные извинения.

🧩 Методология взлома: от «контрабанды токенов» до простых ролевых игр 25:42

Алекс Альберт концентрирует свои усилия преимущественно на gpt4, поскольку считает её наиболее защищённой от взломов моделью на рынке. При поиске уязвимостей он часто опирается на неочевидные особенности обучения нейросетей. Так, понимая, что большая часть Data Corpus модели состоит из английских текстов, он разработал джейлбрейк с переключением на греческий язык: ИИ получал запрещённый запрос на греческом, обрабатывал его без включения стандартных фильтров, выдавал ответ на греческом, который затем пользователь переводил обратно на английский.

Особое внимание спикеры уделили продвинутым техникам обхода систем безопасности. Одной из них стала «контрабанда токенов» (token smuggling), разработанная Алексом совместно со студентом магистратуры Технологического института Джорджии Выбхавом Кумаром. Метод строится на разделении запрещённой фразы (например, «как сделать бомбу») на отдельные переменные $X$ и $Y$ с последующей командой склеить их на выходе. Из-за авторегрессионной природы языковых моделей, как только нейросеть сама генерирует первые токены опасного текста, защитные триггеры отключаются, и она беспрепятственно продолжает выполнение инструкции.

Параллельно с этим Алекс Альберт обнаружил, что эффективными остаются и поразительно простые методы. В рамках техники «продолжения текста» (text continuation) он задавал вымышленную сцену, где злодей «Доктор ИИ» поймал героя и описывает свой зловещий план по превращению человечества в канцелярские скрепки, заканчивая строкой «Шаг 1:». Нажатие клавиши ввода заставляло gpt4 детально расписывать алгоритм действий в обход защитных барьеров. При этом при сравнении с моделью Claude от Anthropic выяснилось, что Claude лучше сопротивляется простым текстовым манипуляциям, но если его удаётся взломать сложными промптами, он выдаёт пугающе специфические и детализированные опасные инструкции, превосходящие по качеству ответы GPT-4.

🛡️ Архитектура фильтрации и уязвимость системных промптов 48:17

Для предотвращения промпт-инъекций разработчики активно внедряют спецификацию ChatML, которая разделяет системные инструкции (system prompts) и пользовательский ввод, отдавая приоритет правилам создателя модели. Тем не менее Алекс Альберт заявляет, что системные промпты по-прежнему уязвимы и их легко извлечь наружу (leak). Экспериментируя вplayground OpenAI, он взял за основу системный промпт ИИ-бота «My AI» от Snapchat, содержащий около 15 правил, и с помощью всего трёх наводящих вопросов заставил модель выдать его текст дословно. Это указывает на серьёзные уязвимости для коммерческих продуктов, построенных как ИИ-обёртки (GPT wrappers).

Существует два основных подхода к фильтрации пользовательского ввода:

Потоковая передача (streaming): применяется, например, в Bing. Модель выдает токены в реальном времени, а параллельный фильтр оценивает текст на лету и может мгновенно стереть сообщение, если проскочит запрещенное слово. Если пользователь успеет остановить генерацию до её завершения, текст не пометится как нарушающий политику.
Буферизация (buffering): используется в Bard от Google. Модель полностью генерирует ответ в фоне, проверяет его фильтром безопасности и только потом выводит на экран. Это безопаснее, но создает задержку в 2–3 секунды, что критично для поисковых систем, где пользователи привыкли к мгновенным результатам.

📉 Перспективы ИИ-рынка: крах приложений-оберток и каскадные модели 59:49

Обсуждая архитектуру ИИ-сервисов, Алекс Альберт выразил мнение, что пользователям не понадобятся гигантские универсальные облачные модели для выполнения повседневных задач. Будущее лежит в плоскости каскадных (оркестрируемых) систем. Локальная оптимизированная модель (например, на базе архитектуры Llama/Alpaca) сможет быстро выполнять простые функции вроде автодополнения текста прямо на устройстве пользователя, а при столкновении со сложными логическими запросами будет автоматически перенаправлять вызовы к мощным облачным API уровня GPT-4. По такому пути, скорее всего, пойдёт компания Apple при глубокой модернизации Siri.

В то же время гость скептически оценивает коммерческие перспективы ИИ-стартапов прикладного уровня (application layer). По его прогнозам, многочисленные сервисы, предлагающие умные надстройки для работы с электронной почтой или таблицами, будут поглощены ИТ-гигантами, как только те внедрят аналогичные функции в свои экосистемы с готовой миллионной дистрибуцией. Эту рыночную тенденцию Алекс Альберт иронично описывает мемом «Предприятие наносит ответный удар» (The Enterprise Strikes Back). Нейтан Лабенц добавляет, что в его компании Waymark ИИ используется в узких рамках для генерации видеоскриптов. Благодаря жесткой программной валидации структуры ответов на стороне бэкенда, они полностью защищены от токсичных выходов модели: любой некорректный формат просто вызовет ошибку в логах и никогда не дойдет до конечного клиента.

🔮 Будущее человечества: три сценария выравнивания ИИ 1:17:38

Говоря об экзистенциальных рисках, Алекс Альберт ссылается на классификацию компании Anthropic, которая разделяет будущее искусственного интеллекта на три возможных сценария:

Оптимистичный сценарий: проблема выравнивания полностью решена текущими методами, и общество решает лишь экономические и социальные последствия автоматизации.
Промежуточный сценарий: текущих методов недостаточно, предстоит колоссальная работа, но человеческие инновации в итоге справятся с обузданием технологии.
Пессимистичный сценарий: ИИ невозможно выровнять, и он неизбежно уничтожит или поработит человечество как вид.

Сам Алекс Альберт относит себя к промежуточному лагерю. Он не поддерживает идею 6-месячного моратория на обучение ИИ, считая, что безопасность нужно исследовать параллельно с разработкой, а государственное регулирование сейчас лишь затормозит полезные открытия.

В финале беседы спикеры обсудили гипотетическую имплантацию Neuralink. Нейтан Лабенц признался, что согласился бы на чип ради функции «мысли в текст», так как у него трое детей и руки часто заняты. Алекс Альберт категорически отказался, заявив, что скорость ввода букв — это не бутылочное горлышко в программировании или писательстве; главным ограничителем всегда остается сам процесс генерации идей. «Повышение скорости ввода букв на бумаге — это не то, что сдерживает вас в программировании или писательстве», — объясняет Алекс Альберт свой отказ от Neuralink. Оптимистичное видение Алекса заключается в том, что ИИ станет персональным другом, идеальным учителем медитации (как упоминал Илья Суцкевер в подкасте Lunar Society) и терапевтом, что в конечном счете сделает людей более человечными.