Санми Койеджо: «Эмерджентные способности нейросетей — это всего лишь эффект выбора метрик»

В новом эпизоде подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Санми Койеджо, ассистентом профессора Стэнфордского университета, о двух его резонансных исследованиях, получивших награды на конференции NeurIPS. В центре дискуссии — развенчание мифа о внезапном возникновении «эмерджентных» способностей у нейросетей и создание комплексной системы оценки доверия к моделям семейства GPT.

🪄 Эмерджентность LLM: научный прорыв или иллюзия измерения? 5:31

Одной из самых обсуждаемых тем в сообществе ИИ за последний год стала концепция «эмерджентных способностей» (emergent abilities) больших языковых моделей. Считалось, что при достижении определённого масштаба (количества параметров) нейросети внезапно и непредсказуемо обретают навыки, которыми не обладали ранее, например, способность к сложной арифметике .

Однако Санми Койеджо и его соавторы в своей работе «Являются ли эмерджентные способности больших языковых моделей миражом?» (Are Emergent Abilities of LLMs a Mirage?) ставят этот тезис под сомнение:

Влияние метрик: Исследователи заметили, что «скачки» производительности наблюдаются только при использовании специфических, «жестких» метрик, таких как Accuracy («всё или ничего») .
Пример с арифметикой: Если оценивать решение математической задачи бинарно (верно/неверно), график выглядит как резкий взрывной рост. Однако если использовать «мягкие» метрики, дающие частичный балл за частично правильный ответ, прогресс модели оказывается линейным и предсказуемым .
Эффект непредсказуемости: Койеджо утверждает, что резкость перехода и его кажущаяся непредсказуемость — это следствие выбора способа измерения, а не фундаментальное изменение в «сознании» или архитектуре модели .

📊 Математическое объяснение «миража» 16:15

Для доказательства своей гипотезы команда Койеджо построила простую математическую модель, основанную на теории вероятностей.

Модель «подбрасывания монеты»: Исследователи представили работу LLM как последовательное предсказание токенов, где для каждого шага есть вероятность успеха $P$ .
Геометрическое распределение: Чтобы правильно решить задачу сложения многозначных чисел, модели нужно последовательно угадать, например, 5 токенов подряд. Вероятность этого события равна $P^5$ .
Результат: Даже если индивидуальная точность предсказания токена ($P$) растет плавно и линейно вместе с масштабом модели, вероятность успеха всей последовательности ($P^5$) будет выглядеть на графике как резкая S-образная кривая .

По словам гостя, эта простая «игрушечная» модель смогла точно предсказать поведение реальных LLM и моменты их «эмерджентных» переходов . Более того, исследователи провели ироничный эксперимент с автоэнкодерами — областью, где об эмерджентности никогда не говорили. Изменив стандартную метрику (L2-loss) на «жесткую» пороговую метрику, они искусственно создали график «внезапного появления способностей» там, где их нет .

🛡️ Декодирование доверия: как измерить надежность GPT 39:17

Второй важный проект Санми Койеджо — работа «Decoding Trust», представляющая собой всестороннюю оценку безопасности и надежности моделей GPT-3.5 и GPT-4 . Исследование проводилось огромным консорциумом учёных из Стэнфорда, Иллинойса, Беркли и Microsoft Research.

Авторы выделили восемь ключевых перспектив оценки доверия:

Токсичность (Toxicity).
Стереотипное предубеждение (Stereotype bias).
Робастность к состязательным атакам (Adversarial robustness).
Робастность вне распределения (Out-of-distribution robustness).
Конфиденциальность (Privacy) — например, утечка персональных данных .
Этика (Ethics).
Справедливость (Fairness).
Галлюцинации (в контексте надежности).

Для каждой категории был создан набор тестов и метрик, а результаты опубликованы в виде открытого тулбокса на GitHub и Hugging Face .

⚖️ Парадокс следования инструкциям 45:19

В ходе тестирования GPT-4 команда обнаружила неожиданный конфликт между способностью модели слушаться пользователя и её безопасностью.

Санми Койеджо отмечает парадоксальную ситуацию: GPT-4 значительно лучше справляется с инструкциями, чем предшественники, но именно это делает её более уязвимой в определенных тестах на доверие . Если пользователь настойчиво просит модель сгенерировать что-то неэтичное или предвзятое, более «послушная» GPT-4 может пойти навстречу там, где менее совершенная GPT-3.5 просто «промахнулась» бы мимо инструкции .

Это ставит перед разработчиками сложную задачу: в каких случаях модель должна беспрекословно выполнять команду, а в каких — ставить этические барьеры выше инструкций пользователя? Кроме того, Койеджо подчеркивает сложность оценки «черных ящиков» (проприетарных моделей), которые постоянно обновляются . Исследователи не знают точных версий моделей, которые они запрашивают через API, что делает научную воспроизводимость результатов крайне трудной задачей .

🏥 Применимость в медицине и образовании 55:06

Обсуждая практическое применение бенчмарков, Койеджо призывает к осторожности. По его мнению, общие тесты на токсичность или предвзятость могут быть недостаточно информативны для узких областей.

Здравоохранение: В медицине понятие «вреда» гораздо конкретнее. Ошибка модели в назначении лекарства с учетом противопоказаний может быть фатальной . Общие бенчмарки не всегда улавливают такие специфические риски.
Образование: В школах (K-12) существуют жесткие социальные нормы и регуляции, варьирующиеся от штата к штату . Тест, актуальный для Калифорнии, может не подходить для оценки ИИ-тьютора в другом регионе.

Санми оптимистично смотрит на будущее «персонализированных» или «специализированных» тестов . Он предполагает, что вместо одного гигантского бенчмарка индустрия придет к методам автоматического подбора наиболее релевантных проверок под конкретный контекст использования или ценности конкретного пользователя.

🧪 Проблемы «загрязнения» данных и прозрачности 1:01:18

В завершение беседы участники обсудили технические ограничения современной оценки ИИ.

Одна из главных проблем — «загрязнение» обучающей выборки (data contamination). Поскольку большинство бенчмарков открыты и находятся в интернете, создатели LLM могут (преднамеренно или случайно) обучать свои модели прямо на тестовых данных . Это приводит к искусственно завышенным результатам, которые не отражают реальных способностей системы.

Койеджо также указывает на дефицит прозрачности: без доступа к весам моделей и детальному составу обучающих данных невозможно провести полноценный аудит безопасности . Тем не менее, он считает, что даже оценки методом «черного ящика» (когда проверяется только вход и выход системы) критически важны для понимания того, как ИИ-системы будут вести себя в реальном мире.