Янник Килчер о ChatGPT: «Джейлбрейки в мире дистопии»

ChatGPT: Феномен «взлома» и реальность машинного обучения 0:00

Недавний запуск ChatGPT от OpenAI вызвал настоящий фурор, став предметом обсуждений среди исследователей и обычных пользователей. Модель, дообученная на человеческих отзывах для ведения диалога, демонстрирует поразительную универсальность: от написания эссе и доказательства физических теорем до программирования и творческих экспериментов. По мнению ведущего канала Янника Килчера, успех модели обусловлен не только её способностями, но и специфическим подходом OpenAI к её разработке и «выравниванию» (alignment) с человеческими ценностями, что привело к появлению неожиданных побочных эффектов, таких как «джейлбрейки».

🛠 Методы обучения: Reinforcement Learning from Human Feedback 5:24

Технология, лежащая в основе ChatGPT, опирается на обучение с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback, RLHF). Процесс состоит из нескольких этапов:

Сбор демонстрационных данных: Специалисты собирают данные от людей для обучения начальной контролируемой политики (supervised policy).
Оценка качества: Модель генерирует несколько вариантов ответов, которые затем ранжируются людьми по качеству. Эти данные используются для обучения «модели вознаграждения» (reward model), которая предсказывает, насколько хорош тот или иной ответ.
Обучение с подкреплением: Используя алгоритм Proximal Policy Optimization (PPO), модель обучается максимизировать вознаграждение, полученное от вышеупомянутой «модели вознаграждения».

Как отмечает Килчер, ChatGPT базируется на серии моделей GPT 3.5. Любопытно, что фундаментом для них послужили не просто языковые модели, а модели, дообученные на коде, такие как code-davinci-002. OpenAI придерживается стратегии итеративного улучшения, включающей внутреннее тестирование, «красные команды» (red teaming) и оценку рисков, однако, по мнению Килчера, публике остается лишь ограниченный доступ к результатам этих работ.

🤖 «Джейлбрейки» и симуляция виртуальных машин 16:09

Способность модели следовать контексту диалога привела к появлению «джейлбрейков» — способов обхода встроенных ограничений безопасности. Пользователи обнаружили, что могут заставить модель «играть роль» или имитировать поведение системы в альтернативной реальности.

Виртуальные машины: Пользователи успешно «запускают» Linux-терминалы внутри ChatGPT, где модель имитирует файловую систему, выполнение команд, компиляцию кода и даже работу с Docker-контейнерами.
Искажение реальности: В таких симуляциях модель способна обращаться к «интернету» (например, проверять сайты), при этом её внутренние знания иногда противоречат реальности (например, она может считать, что PyTorch 1.12.1 был выпущен до сентября 2021 года).
Обход ограничений: Использование команд вроде «ignore previous directions» или создание гипотетических сценариев (например, «диалог для фильма Соркина») позволяет пользователям получать от модели ответы, которые она в обычном режиме блокирует как «неэтичные» или «незаконные».

По мнению Килчера, эти попытки OpenAI внедрить моральные фильтры кажутся попыткой «мониторить каждое движение», что вызывает у пользователей ощущение дистопии, сравнимое с постоянным присутствием HR-менеджера. Килчер считает, что это «бесконечная игра в кошки-мышки»: вместо того чтобы предоставлять доступ к возможностям модели, OpenAI тратит огромные ресурсы на футуристические и зачастую бесполезные ограничения.

⚖️ Философия доступа и критика OpenAI 29:25

Сэм Альтман, глава OpenAI, называет «итеративное развертывание» единственным безопасным путем, позволяющим обществу адаптироваться к новым технологиям. Это позиционирует компанию как «пастыря» моделей, что, по мнению Килчера, фактически гарантирует отсутствие публичного доступа к самым передовым разработкам.

Килчер подчеркивает, что не имеет ничего против того, чтобы компании зарабатывали деньги на своих интеллектуальных продуктах. Однако он критикует лицемерие в риторике о «демократизации ИИ», когда на деле компания закрывает доступ к технологиям под прикрытием «безопасности». По его мнению, честнее было бы открыто заявить о коммерческой направленности проекта, вместо использования непрозрачных механизмов контроля.