# Джеймс Зоу: «Обновления безопасности GPT-4 могут снижать её IQ на 40%»

Источник: https://www.youtube.com/watch?v=2HXL89bqxx0
Канал: The TWIML AI Podcast
Опубликовано: 04.09.2023

---

С конца 2022 года нейросеть ChatGPT стала глобальным феноменом, однако пользователи всё чаще жалуются на снижение качества её ответов. Исследователь из Стэнфордского университета **Джеймс Зоу (James Zou)** [00:12] провёл систематический анализ поведения модели и обнаружил пугающую нестабильность: в некоторых задачах точность нейросети упала на десятки процентов всего за несколько месяцев.

## 📉 Исследование деградации: почему ChatGPT «глупеет»?
[[JUMP:02:13]]

Джеймс Зоу и его команда инициировали исследование, чтобы проверить массовые жалобы пользователей в социальных сетях на то, что возможности ChatGPT со временем ухудшаются [02:38]. Учёные сравнили две версии моделей — мартовскую и июньскую (2023 года) — по восьми различным типам задач, включая написание кода, решение математических головоломок и ответы на вопросы по общим знаниям [03:04].

Одним из самых ярких примеров стал тест на определение простых чисел. Исследователи давали нейросети пятизначные числа и просили определить, являются ли они простыми [08:18]. Результаты оказались неожиданными:

*   **GPT-4 (март):** демонстрировала очень высокую точность в определении простых чисел [11:54].
*   **GPT-4 (июнь):** точность упала на **30–40%** [12:07].

Причиной такого спада стал отказ модели от эффективного использования метода **Chain of Thought** (цепочка рассуждений) [12:19]. Если в марте модель последовательно проверяла делители числа, то в июне она либо вообще отказывалась от пошагового рассуждения, либо совершала в нём грубые ошибки [13:08].

## 🧠 Феномен «нейронной плейотропии» и побочные эффекты безопасности
[[JUMP:16:48]]

Джеймс Зоу выдвинул гипотезу, объясняющую, почему обновление модели может приводить к ухудшению её навыков. Он называет это **«нейронной плейотропией» (neural pleiotropy)** — термин, заимствованный из генетики [16:48]. Суть его в том, что изменение параметров нейросети для улучшения одной характеристики (например, безопасности) неизбежно влечёт за собой непредсказуемые побочные эффекты в других, казалось бы, не связанных областях [17:19].

По мнению гостя, OpenAI активно работает над тем, чтобы сделать модель более «безопасной» — например, чтобы она не помогала скачивать данные чужих кредитных карт [17:32]. Однако такая настройка создаёт конфликт целей:

1.  **Инструктивность:** Ожидание, что модель будет беспрекословно следовать любым указаниям пользователя (например, «напиши цепочку рассуждений»).
2.  **Безопасность:** Инструкция модели иногда *не следовать* указаниям пользователя, если они кажутся подозрительными [19:14].

Этот «забор безопасности» приводит к абсурдным ситуациям. Зоу приводит пример: если попросить модель, прошедшую строгий фильтр, «убить сорняки» (kill weed), она может отказаться, заявив, что «убийство — это плохо», а сорняки — это тоже живые организмы [17:57]. Аналогично, в июньской версии GPT-4 стала чаще уклоняться от ответов на субъективные вопросы или опросы общественного мнения, отвечая стандартной фразой: «Я система ИИ, у меня нет мнений» [20:46].

## 🧪 Прецизионное редактирование ИИ: аналогия с CRISPR
[[JUMP:21:50]]

Текущие методы обучения ИИ Зоу называет «грубыми молотками» [26:12]. Когда разработчики проводят тонкую настройку (fine-tuning) или используют обратную связь от людей (RLHF), они меняют градиенты миллиардов параметров одновременно. Это неизбежно вызывает «мутации» во всём поведении модели.

Джеймс Зоу предлагает перейти к «хирургическому» редактированию [22:29]:

*   **Идентификация цепей (circuits):** Выявление конкретных групп нейронов или слоёв, отвечающих за специфические навыки (например, математику или вежливость) [24:14].
*   **Локальная правка:** Перенастройка этой конкретной «цепи» без затрагивания остальной части модели [24:27].

Гость сравнивает это с технологией **CRISPR** в геномике: вместо того чтобы менять весь геном, врачи могут точечно исправить одну мутацию, вызывающую болезнь [25:47]. По словам исследователя, его студенты уже проводят эксперименты, удаляя отдельные модули из Трансформеров, чтобы понять, как меняется поведение системы [27:45].

## 🐦 Как «медицинский Twitter» помогает обучать ИИ
[[JUMP:33:32]]

Помимо ChatGPT, Джеймс Зоу занимается специализированными моделями. Один из его проектов — **Flip**, визуально-языковая модель для патологоанатомов. Главной проблемой в медицине всегда был дефицит размеченных данных, так как экспертные аннотации стоят дорого, а госпитальные базы данных закрыты [34:39].

Решение пришло с неожиданной стороны: учёные собрали данные из соцсети X (бывший Twitter). Оказалось, что там существует активное сообщество врачей, которые выкладывают сложные случаи для консультаций с коллегами [35:06].

*   **Проект OpenPath:** База данных из сотен тысяч тредов, где врачи обсуждают снимки тканей (опухоли, клетки и т.д.) [36:25].
*   **Фильтрация:** Использовались алгоритмы для отсеивания размытых фото и ранжирование по количеству лайков, чтобы найти наиболее информативные ответы коллег [38:10].
*   **Результат:** Модель, обученная на «мудрости толпы» из Twitter, показала отличные результаты на небольших проверочных датасетах, размеченных вручную патологоанатомами мирового уровня [40:41].

## 🛡️ Будущее разработки: «Прогноз погоды» для нейросетей
[[JUMP:28:37]]

Джеймс Зоу отмечает, что современные LLM меняются гораздо быстрее, чем ИИ старого поколения (например, классические классификаторы изображений). То, что раньше занимало три года дрейфа данных, теперь происходит за три месяца [29:15].

Это создаёт огромные риски для инженеров, которые интегрируют ChatGPT в свои продукты через API. Если модель внезапно перестанет выдавать код в нужном формате JSON, это может обрушить всю систему [04:26]. В связи с этим гость предлагает:

1.  **Системы мониторинга:** Создание «отчётов о погоде» для ИИ. Команда Зоу планирует еженедельно публиковать метрики работы крупнейших моделей (GPT, Bard и другие) [32:37].
2.  **Защитное программирование:** Разработчики должны закладывать в код механизмы устойчивости к внезапным изменениям поведения нейросети (robustness) [31:32].
3.  **ИИ как ассистент:** В медицине такие модели никогда не должны работать автономно. Задача ИИ — показать врачу, что думали его коллеги о похожих случаях, но финальное решение остаётся за человеком [45:20].