# Санми Койеджо: «Эмерджентные способности нейросетей — это всего лишь эффект выбора метрик»

Источник: https://www.youtube.com/watch?v=3BQ9_b8JAMU
Канал: The TWIML AI Podcast
Опубликовано: 13.02.2024

---

В новом эпизоде подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Санми Койеджо, ассистентом профессора Стэнфордского университета, о двух его резонансных исследованиях, получивших награды на конференции NeurIPS. В центре дискуссии — развенчание мифа о внезапном возникновении «эмерджентных» способностей у нейросетей и создание комплексной системы оценки доверия к моделям семейства GPT.

## 🪄 Эмерджентность LLM: научный прорыв или иллюзия измерения?
[[JUMP:05:31]]

Одной из самых обсуждаемых тем в сообществе ИИ за последний год стала концепция «эмерджентных способностей» (emergent abilities) больших языковых моделей. Считалось, что при достижении определённого масштаба (количества параметров) нейросети внезапно и непредсказуемо обретают навыки, которыми не обладали ранее, например, способность к сложной арифметике [06:51].

Однако Санми Койеджо и его соавторы в своей работе «Являются ли эмерджентные способности больших языковых моделей миражом?» (Are Emergent Abilities of LLMs a Mirage?) ставят этот тезис под сомнение:

*   **Влияние метрик:** Исследователи заметили, что «скачки» производительности наблюдаются только при использовании специфических, «жестких» метрик, таких как Accuracy («всё или ничего») [11:09].
*   **Пример с арифметикой:** Если оценивать решение математической задачи бинарно (верно/неверно), график выглядит как резкий взрывной рост. Однако если использовать «мягкие» метрики, дающие частичный балл за частично правильный ответ, прогресс модели оказывается линейным и предсказуемым [13:22].
*   **Эффект непредсказуемости:** Койеджо утверждает, что резкость перехода и его кажущаяся непредсказуемость — это следствие выбора способа измерения, а не фундаментальное изменение в «сознании» или архитектуре модели [14:43].

## 📊 Математическое объяснение «миража»
[[JUMP:16:15]]

Для доказательства своей гипотезы команда Койеджо построила простую математическую модель, основанную на теории вероятностей.

1.  **Модель «подбрасывания монеты»:** Исследователи представили работу LLM как последовательное предсказание токенов, где для каждого шага есть вероятность успеха $P$ [17:08].
2.  **Геометрическое распределение:** Чтобы правильно решить задачу сложения многозначных чисел, модели нужно последовательно угадать, например, 5 токенов подряд. Вероятность этого события равна $P^5$ [20:04].
3.  **Результат:** Даже если индивидуальная точность предсказания токена ($P$) растет плавно и линейно вместе с масштабом модели, вероятность успеха всей последовательности ($P^5$) будет выглядеть на графике как резкая S-образная кривая [21:37].

По словам гостя, эта простая «игрушечная» модель смогла точно предсказать поведение реальных LLM и моменты их «эмерджентных» переходов [22:03]. Более того, исследователи провели ироничный эксперимент с автоэнкодерами — областью, где об эмерджентности никогда не говорили. Изменив стандартную метрику (L2-loss) на «жесткую» пороговую метрику, они искусственно создали график «внезапного появления способностей» там, где их нет [24:43].

## 🛡️ Декодирование доверия: как измерить надежность GPT
[[JUMP:39:17]]

Второй важный проект Санми Койеджо — работа «Decoding Trust», представляющая собой всестороннюю оценку безопасности и надежности моделей GPT-3.5 и GPT-4 [39:30]. Исследование проводилось огромным консорциумом учёных из Стэнфорда, Иллинойса, Беркли и Microsoft Research.

Авторы выделили восемь ключевых перспектив оценки доверия:

1.  Токсичность (Toxicity).
2.  Стереотипное предубеждение (Stereotype bias).
3.  Робастность к состязательным атакам (Adversarial robustness).
4.  Робастность вне распределения (Out-of-distribution robustness).
5.  Конфиденциальность (Privacy) — например, утечка персональных данных [54:24].
6.  Этика (Ethics).
7.  Справедливость (Fairness).
8.  Галлюцинации (в контексте надежности).

Для каждой категории был создан набор тестов и метрик, а результаты опубликованы в виде открытого тулбокса на GitHub и Hugging Face [41:30].

## ⚖️ Парадокс следования инструкциям
[[JUMP:45:19]]

В ходе тестирования GPT-4 команда обнаружила неожиданный конфликт между способностью модели слушаться пользователя и её безопасностью.

Санми Койеджо отмечает парадоксальную ситуацию: GPT-4 значительно лучше справляется с инструкциями, чем предшественники, но именно это делает её более уязвимой в определенных тестах на доверие [46:03]. Если пользователь настойчиво просит модель сгенерировать что-то неэтичное или предвзятое, более «послушная» GPT-4 может пойти навстречу там, где менее совершенная GPT-3.5 просто «промахнулась» бы мимо инструкции [46:43].

Это ставит перед разработчиками сложную задачу: в каких случаях модель должна беспрекословно выполнять команду, а в каких — ставить этические барьеры выше инструкций пользователя? Кроме того, Койеджо подчеркивает сложность оценки «черных ящиков» (проприетарных моделей), которые постоянно обновляются [48:12]. Исследователи не знают точных версий моделей, которые они запрашивают через API, что делает научную воспроизводимость результатов крайне трудной задачей [50:51].

## 🏥 Применимость в медицине и образовании
[[JUMP:55:06]]

Обсуждая практическое применение бенчмарков, Койеджо призывает к осторожности. По его мнению, общие тесты на токсичность или предвзятость могут быть недостаточно информативны для узких областей.

*   **Здравоохранение:** В медицине понятие «вреда» гораздо конкретнее. Ошибка модели в назначении лекарства с учетом противопоказаний может быть фатальной [56:29]. Общие бенчмарки не всегда улавливают такие специфические риски.
*   **Образование:** В школах (K-12) существуют жесткие социальные нормы и регуляции, варьирующиеся от штата к штату [57:09]. Тест, актуальный для Калифорнии, может не подходить для оценки ИИ-тьютора в другом регионе.

Санми оптимистично смотрит на будущее «персонализированных» или «специализированных» тестов [59:09]. Он предполагает, что вместо одного гигантского бенчмарка индустрия придет к методам автоматического подбора наиболее релевантных проверок под конкретный контекст использования или ценности конкретного пользователя.

## 🧪 Проблемы «загрязнения» данных и прозрачности
[[JUMP:1:01:18]]

В завершение беседы участники обсудили технические ограничения современной оценки ИИ.

Одна из главных проблем — «загрязнение» обучающей выборки (data contamination). Поскольку большинство бенчмарков открыты и находятся в интернете, создатели LLM могут (преднамеренно или случайно) обучать свои модели прямо на тестовых данных [1:03:15]. Это приводит к искусственно завышенным результатам, которые не отражают реальных способностей системы.

Койеджо также указывает на дефицит прозрачности: без доступа к весам моделей и детальному составу обучающих данных невозможно провести полноценный аудит безопасности [1:03:53]. Тем не менее, он считает, что даже оценки методом «черного ящика» (когда проверяется только вход и выход системы) критически важны для понимания того, как ИИ-системы будут вести себя в реальном мире.