Джеймс Зоу: «Обновления безопасности GPT-4 могут снижать её IQ на 40%»

С конца 2022 года нейросеть ChatGPT стала глобальным феноменом, однако пользователи всё чаще жалуются на снижение качества её ответов. Исследователь из Стэнфордского университета Джеймс Зоу (James Zou) провёл систематический анализ поведения модели и обнаружил пугающую нестабильность: в некоторых задачах точность нейросети упала на десятки процентов всего за несколько месяцев.

📉 Исследование деградации: почему ChatGPT «глупеет»? 2:13

Джеймс Зоу и его команда инициировали исследование, чтобы проверить массовые жалобы пользователей в социальных сетях на то, что возможности ChatGPT со временем ухудшаются . Учёные сравнили две версии моделей — мартовскую и июньскую (2023 года) — по восьми различным типам задач, включая написание кода, решение математических головоломок и ответы на вопросы по общим знаниям .

Одним из самых ярких примеров стал тест на определение простых чисел. Исследователи давали нейросети пятизначные числа и просили определить, являются ли они простыми . Результаты оказались неожиданными:

GPT-4 (март): демонстрировала очень высокую точность в определении простых чисел .
GPT-4 (июнь): точность упала на 30–40% .

Причиной такого спада стал отказ модели от эффективного использования метода Chain of Thought (цепочка рассуждений) . Если в марте модель последовательно проверяла делители числа, то в июне она либо вообще отказывалась от пошагового рассуждения, либо совершала в нём грубые ошибки .

🧠 Феномен «нейронной плейотропии» и побочные эффекты безопасности 16:48

Джеймс Зоу выдвинул гипотезу, объясняющую, почему обновление модели может приводить к ухудшению её навыков. Он называет это «нейронной плейотропией» (neural pleiotropy) — термин, заимствованный из генетики . Суть его в том, что изменение параметров нейросети для улучшения одной характеристики (например, безопасности) неизбежно влечёт за собой непредсказуемые побочные эффекты в других, казалось бы, не связанных областях .

По мнению гостя, OpenAI активно работает над тем, чтобы сделать модель более «безопасной» — например, чтобы она не помогала скачивать данные чужих кредитных карт . Однако такая настройка создаёт конфликт целей:

Инструктивность: Ожидание, что модель будет беспрекословно следовать любым указаниям пользователя (например, «напиши цепочку рассуждений»).
Безопасность: Инструкция модели иногда не следовать указаниям пользователя, если они кажутся подозрительными .

Этот «забор безопасности» приводит к абсурдным ситуациям. Зоу приводит пример: если попросить модель, прошедшую строгий фильтр, «убить сорняки» (kill weed), она может отказаться, заявив, что «убийство — это плохо», а сорняки — это тоже живые организмы . Аналогично, в июньской версии GPT-4 стала чаще уклоняться от ответов на субъективные вопросы или опросы общественного мнения, отвечая стандартной фразой: «Я система ИИ, у меня нет мнений» .

🧪 Прецизионное редактирование ИИ: аналогия с CRISPR 21:50

Текущие методы обучения ИИ Зоу называет «грубыми молотками» . Когда разработчики проводят тонкую настройку (fine-tuning) или используют обратную связь от людей (RLHF), они меняют градиенты миллиардов параметров одновременно. Это неизбежно вызывает «мутации» во всём поведении модели.

Джеймс Зоу предлагает перейти к «хирургическому» редактированию :

Идентификация цепей (circuits): Выявление конкретных групп нейронов или слоёв, отвечающих за специфические навыки (например, математику или вежливость) .
Локальная правка: Перенастройка этой конкретной «цепи» без затрагивания остальной части модели .

Гость сравнивает это с технологией CRISPR в геномике: вместо того чтобы менять весь геном, врачи могут точечно исправить одну мутацию, вызывающую болезнь . По словам исследователя, его студенты уже проводят эксперименты, удаляя отдельные модули из Трансформеров, чтобы понять, как меняется поведение системы .

🐦 Как «медицинский Twitter» помогает обучать ИИ 33:32

Помимо ChatGPT, Джеймс Зоу занимается специализированными моделями. Один из его проектов — Flip, визуально-языковая модель для патологоанатомов. Главной проблемой в медицине всегда был дефицит размеченных данных, так как экспертные аннотации стоят дорого, а госпитальные базы данных закрыты .

Решение пришло с неожиданной стороны: учёные собрали данные из соцсети X (бывший Twitter). Оказалось, что там существует активное сообщество врачей, которые выкладывают сложные случаи для консультаций с коллегами .

Проект OpenPath: База данных из сотен тысяч тредов, где врачи обсуждают снимки тканей (опухоли, клетки и т.д.) .
Фильтрация: Использовались алгоритмы для отсеивания размытых фото и ранжирование по количеству лайков, чтобы найти наиболее информативные ответы коллег .
Результат: Модель, обученная на «мудрости толпы» из Twitter, показала отличные результаты на небольших проверочных датасетах, размеченных вручную патологоанатомами мирового уровня .

🛡️ Будущее разработки: «Прогноз погоды» для нейросетей 28:37

Джеймс Зоу отмечает, что современные LLM меняются гораздо быстрее, чем ИИ старого поколения (например, классические классификаторы изображений). То, что раньше занимало три года дрейфа данных, теперь происходит за три месяца .

Это создаёт огромные риски для инженеров, которые интегрируют ChatGPT в свои продукты через API. Если модель внезапно перестанет выдавать код в нужном формате JSON, это может обрушить всю систему . В связи с этим гость предлагает:

Системы мониторинга: Создание «отчётов о погоде» для ИИ. Команда Зоу планирует еженедельно публиковать метрики работы крупнейших моделей (GPT, Bard и другие) .
Защитное программирование: Разработчики должны закладывать в код механизмы устойчивости к внезапным изменениям поведения нейросети (robustness) .
ИИ как ассистент: В медицине такие модели никогда не должны работать автономно. Задача ИИ — показать врачу, что думали его коллеги о похожих случаях, но финальное решение остаётся за человеком .