Джеймс Зоу: «Обновления безопасности GPT-4 могут снижать её IQ на 40%»

The TWIML AI Podcast 1,2 тыс. 49 мин 4 мин 04.09.2023
Главное

С конца 2022 года нейросеть ChatGPT стала глобальным феноменом, однако пользователи всё чаще жалуются на снижение качества её ответов. Исследователь из Стэнфордского университета Джеймс Зоу (James Zou) провёл систематический анализ поведения модели и обнаружил пугающую нестабильность: в некоторых задачах точность нейросети упала на десятки процентов всего за несколько месяцев.

📉 Исследование деградации: почему ChatGPT «глупеет»? 2:13

Джеймс Зоу и его команда инициировали исследование, чтобы проверить массовые жалобы пользователей в социальных сетях на то, что возможности ChatGPT со временем ухудшаются . Учёные сравнили две версии моделей — мартовскую и июньскую (2023 года) — по восьми различным типам задач, включая написание кода, решение математических головоломок и ответы на вопросы по общим знаниям .

Одним из самых ярких примеров стал тест на определение простых чисел. Исследователи давали нейросети пятизначные числа и просили определить, являются ли они простыми . Результаты оказались неожиданными:

Причиной такого спада стал отказ модели от эффективного использования метода Chain of Thought (цепочка рассуждений) . Если в марте модель последовательно проверяла делители числа, то в июне она либо вообще отказывалась от пошагового рассуждения, либо совершала в нём грубые ошибки .

🧠 Феномен «нейронной плейотропии» и побочные эффекты безопасности 16:48

Джеймс Зоу выдвинул гипотезу, объясняющую, почему обновление модели может приводить к ухудшению её навыков. Он называет это «нейронной плейотропией» (neural pleiotropy) — термин, заимствованный из генетики . Суть его в том, что изменение параметров нейросети для улучшения одной характеристики (например, безопасности) неизбежно влечёт за собой непредсказуемые побочные эффекты в других, казалось бы, не связанных областях .

По мнению гостя, OpenAI активно работает над тем, чтобы сделать модель более «безопасной» — например, чтобы она не помогала скачивать данные чужих кредитных карт . Однако такая настройка создаёт конфликт целей:

  1. Инструктивность: Ожидание, что модель будет беспрекословно следовать любым указаниям пользователя (например, «напиши цепочку рассуждений»).
  2. Безопасность: Инструкция модели иногда не следовать указаниям пользователя, если они кажутся подозрительными .

Этот «забор безопасности» приводит к абсурдным ситуациям. Зоу приводит пример: если попросить модель, прошедшую строгий фильтр, «убить сорняки» (kill weed), она может отказаться, заявив, что «убийство — это плохо», а сорняки — это тоже живые организмы . Аналогично, в июньской версии GPT-4 стала чаще уклоняться от ответов на субъективные вопросы или опросы общественного мнения, отвечая стандартной фразой: «Я система ИИ, у меня нет мнений» .

🧪 Прецизионное редактирование ИИ: аналогия с CRISPR 21:50

Текущие методы обучения ИИ Зоу называет «грубыми молотками» . Когда разработчики проводят тонкую настройку (fine-tuning) или используют обратную связь от людей (RLHF), они меняют градиенты миллиардов параметров одновременно. Это неизбежно вызывает «мутации» во всём поведении модели.

Джеймс Зоу предлагает перейти к «хирургическому» редактированию :

Гость сравнивает это с технологией CRISPR в геномике: вместо того чтобы менять весь геном, врачи могут точечно исправить одну мутацию, вызывающую болезнь . По словам исследователя, его студенты уже проводят эксперименты, удаляя отдельные модули из Трансформеров, чтобы понять, как меняется поведение системы .

🐦 Как «медицинский Twitter» помогает обучать ИИ 33:32

Помимо ChatGPT, Джеймс Зоу занимается специализированными моделями. Один из его проектов — Flip, визуально-языковая модель для патологоанатомов. Главной проблемой в медицине всегда был дефицит размеченных данных, так как экспертные аннотации стоят дорого, а госпитальные базы данных закрыты .

Решение пришло с неожиданной стороны: учёные собрали данные из соцсети X (бывший Twitter). Оказалось, что там существует активное сообщество врачей, которые выкладывают сложные случаи для консультаций с коллегами .

🛡️ Будущее разработки: «Прогноз погоды» для нейросетей 28:37

Джеймс Зоу отмечает, что современные LLM меняются гораздо быстрее, чем ИИ старого поколения (например, классические классификаторы изображений). То, что раньше занимало три года дрейфа данных, теперь происходит за три месяца .

Это создаёт огромные риски для инженеров, которые интегрируют ChatGPT в свои продукты через API. Если модель внезапно перестанет выдавать код в нужном формате JSON, это может обрушить всю систему . В связи с этим гость предлагает:

  1. Системы мониторинга: Создание «отчётов о погоде» для ИИ. Команда Зоу планирует еженедельно публиковать метрики работы крупнейших моделей (GPT, Bard и другие) .
  2. Защитное программирование: Разработчики должны закладывать в код механизмы устойчивости к внезапным изменениям поведения нейросети (robustness) .
  3. ИИ как ассистент: В медицине такие модели никогда не должны работать автономно. Задача ИИ — показать врачу, что думали его коллеги о похожих случаях, но финальное решение остаётся за человеком .
💬 Цитаты

«Мы используем очень грубые молотки... Это своего рода аналогично CRISPR для человеческого генома.»

Джеймс Зоу 26:12

«Если модель действительно идеально следует инструкциям, то на вопрос „сделай рецепт яда“ она его сделает. Обучение безопасности заставляет её игнорировать команды.»

Джеймс Зоу 19:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Chain of Thought (CoT)
Метод промпт-инжиниринга, заставляющий модель рассуждать пошагово перед выдачей финального ответа.
Нейронная плейотропия
Явление, при котором изменение одного параметра нейросети влияет на множество различных, не связанных между собой функций.
Дрейф данных (Data Drift)
Изменение статистических свойств данных со временем, приводящее к снижению точности модели в реальных условиях.
📊 Цифры
🗓 Хронология
  1. Март 2023 Выпуск версии GPT-4, показавшей высокие результаты в тестах на логику.
  2. Июнь 2023 Версия GPT-4 продемонстрировала значительную деградацию в Chain of Thought и математике.
  3. Июль 2023 Публикация научной работы Джеймса Зоу о мониторинге поведения ChatGPT.
⚖️ Другая сторона
Искусственный интеллект ChatGPT Джеймс Зоу OpenAI GPT-4 нейронная плейотропия