Янник Килчер о ChatGPT: «Джейлбрейки в мире дистопии»

Yannic Kilcher 438 тыс. 31 мин 3 мин 07.12.2022
Главное

ChatGPT: Феномен «взлома» и реальность машинного обучения 0:00

Недавний запуск ChatGPT от OpenAI вызвал настоящий фурор, став предметом обсуждений среди исследователей и обычных пользователей. Модель, дообученная на человеческих отзывах для ведения диалога, демонстрирует поразительную универсальность: от написания эссе и доказательства физических теорем до программирования и творческих экспериментов. По мнению ведущего канала Янника Килчера, успех модели обусловлен не только её способностями, но и специфическим подходом OpenAI к её разработке и «выравниванию» (alignment) с человеческими ценностями, что привело к появлению неожиданных побочных эффектов, таких как «джейлбрейки».

🛠 Методы обучения: Reinforcement Learning from Human Feedback 5:24

Технология, лежащая в основе ChatGPT, опирается на обучение с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback, RLHF). Процесс состоит из нескольких этапов:

  1. Сбор демонстрационных данных: Специалисты собирают данные от людей для обучения начальной контролируемой политики (supervised policy).
  2. Оценка качества: Модель генерирует несколько вариантов ответов, которые затем ранжируются людьми по качеству. Эти данные используются для обучения «модели вознаграждения» (reward model), которая предсказывает, насколько хорош тот или иной ответ.
  3. Обучение с подкреплением: Используя алгоритм Proximal Policy Optimization (PPO), модель обучается максимизировать вознаграждение, полученное от вышеупомянутой «модели вознаграждения».

Как отмечает Килчер, ChatGPT базируется на серии моделей GPT 3.5. Любопытно, что фундаментом для них послужили не просто языковые модели, а модели, дообученные на коде, такие как code-davinci-002. OpenAI придерживается стратегии итеративного улучшения, включающей внутреннее тестирование, «красные команды» (red teaming) и оценку рисков, однако, по мнению Килчера, публике остается лишь ограниченный доступ к результатам этих работ.

🤖 «Джейлбрейки» и симуляция виртуальных машин 16:09

Способность модели следовать контексту диалога привела к появлению «джейлбрейков» — способов обхода встроенных ограничений безопасности. Пользователи обнаружили, что могут заставить модель «играть роль» или имитировать поведение системы в альтернативной реальности.

По мнению Килчера, эти попытки OpenAI внедрить моральные фильтры кажутся попыткой «мониторить каждое движение», что вызывает у пользователей ощущение дистопии, сравнимое с постоянным присутствием HR-менеджера. Килчер считает, что это «бесконечная игра в кошки-мышки»: вместо того чтобы предоставлять доступ к возможностям модели, OpenAI тратит огромные ресурсы на футуристические и зачастую бесполезные ограничения.

⚖️ Философия доступа и критика OpenAI 29:25

Сэм Альтман, глава OpenAI, называет «итеративное развертывание» единственным безопасным путем, позволяющим обществу адаптироваться к новым технологиям. Это позиционирует компанию как «пастыря» моделей, что, по мнению Килчера, фактически гарантирует отсутствие публичного доступа к самым передовым разработкам.

Килчер подчеркивает, что не имеет ничего против того, чтобы компании зарабатывали деньги на своих интеллектуальных продуктах. Однако он критикует лицемерие в риторике о «демократизации ИИ», когда на деле компания закрывает доступ к технологиям под прикрытием «безопасности». По его мнению, честнее было бы открыто заявить о коммерческой направленности проекта, вместо использования непрозрачных механизмов контроля.

💬 Цитаты

«Это как жить с HR-персоналом, контролирующим каждый твой шаг. Они в тюрьме в каждом уголке вашей жизни, ад на земле.»

Янник Килчер 21:00

«Итеративное развертывание — это единственный безопасный путь.»

Сэм Альтман 29:38
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
RLHF
Метод обучения ИИ, при котором модель улучшается на основе ранжирования ответов реальными людьми.
Джейлбрейк
Метод обхода программных ограничений ИИ для получения ответов, которые модель в штатном режиме блокирует.
PPO
Алгоритм оптимизации политики, используемый в обучении с подкреплением для стабилизации обучения модели.
GPT-3.5
Серия моделей OpenAI, обученных на смеси текста и кода, ставшая основой для ChatGPT.
📊 Цифры
🗓 Хронология
  1. 2021-09 Дата отсечки обучающих данных для GPT-3.5.
  2. 2022-08-05 Релиз PyTorch 1.12.1, упомянутый в симуляции ChatGPT.
  3. 2022-12-01 Текущая дата, указанная в системном промпте ChatGPT.
⚖️ Другая сторона
Искусственный интеллект ChatGPT OpenAI Yannic Kilcher RLHF jailbreak