Санми Койеджо: «Эмерджентные способности нейросетей — это всего лишь эффект выбора метрик»

The TWIML AI Podcast 896 1 ч 5 мин 4 мин 13.02.2024
Главное

В новом эпизоде подкаста TWIML AI ведущий Сэм Чаррингтон беседует с Санми Койеджо, ассистентом профессора Стэнфордского университета, о двух его резонансных исследованиях, получивших награды на конференции NeurIPS. В центре дискуссии — развенчание мифа о внезапном возникновении «эмерджентных» способностей у нейросетей и создание комплексной системы оценки доверия к моделям семейства GPT.

🪄 Эмерджентность LLM: научный прорыв или иллюзия измерения? 5:31

Одной из самых обсуждаемых тем в сообществе ИИ за последний год стала концепция «эмерджентных способностей» (emergent abilities) больших языковых моделей. Считалось, что при достижении определённого масштаба (количества параметров) нейросети внезапно и непредсказуемо обретают навыки, которыми не обладали ранее, например, способность к сложной арифметике .

Однако Санми Койеджо и его соавторы в своей работе «Являются ли эмерджентные способности больших языковых моделей миражом?» (Are Emergent Abilities of LLMs a Mirage?) ставят этот тезис под сомнение:

📊 Математическое объяснение «миража» 16:15

Для доказательства своей гипотезы команда Койеджо построила простую математическую модель, основанную на теории вероятностей.

  1. Модель «подбрасывания монеты»: Исследователи представили работу LLM как последовательное предсказание токенов, где для каждого шага есть вероятность успеха $P$ .
  2. Геометрическое распределение: Чтобы правильно решить задачу сложения многозначных чисел, модели нужно последовательно угадать, например, 5 токенов подряд. Вероятность этого события равна $P^5$ .
  3. Результат: Даже если индивидуальная точность предсказания токена ($P$) растет плавно и линейно вместе с масштабом модели, вероятность успеха всей последовательности ($P^5$) будет выглядеть на графике как резкая S-образная кривая .

По словам гостя, эта простая «игрушечная» модель смогла точно предсказать поведение реальных LLM и моменты их «эмерджентных» переходов . Более того, исследователи провели ироничный эксперимент с автоэнкодерами — областью, где об эмерджентности никогда не говорили. Изменив стандартную метрику (L2-loss) на «жесткую» пороговую метрику, они искусственно создали график «внезапного появления способностей» там, где их нет .

🛡️ Декодирование доверия: как измерить надежность GPT 39:17

Второй важный проект Санми Койеджо — работа «Decoding Trust», представляющая собой всестороннюю оценку безопасности и надежности моделей GPT-3.5 и GPT-4 . Исследование проводилось огромным консорциумом учёных из Стэнфорда, Иллинойса, Беркли и Microsoft Research.

Авторы выделили восемь ключевых перспектив оценки доверия:

  1. Токсичность (Toxicity).
  2. Стереотипное предубеждение (Stereotype bias).
  3. Робастность к состязательным атакам (Adversarial robustness).
  4. Робастность вне распределения (Out-of-distribution robustness).
  5. Конфиденциальность (Privacy) — например, утечка персональных данных .
  6. Этика (Ethics).
  7. Справедливость (Fairness).
  8. Галлюцинации (в контексте надежности).

Для каждой категории был создан набор тестов и метрик, а результаты опубликованы в виде открытого тулбокса на GitHub и Hugging Face .

⚖️ Парадокс следования инструкциям 45:19

В ходе тестирования GPT-4 команда обнаружила неожиданный конфликт между способностью модели слушаться пользователя и её безопасностью.

Санми Койеджо отмечает парадоксальную ситуацию: GPT-4 значительно лучше справляется с инструкциями, чем предшественники, но именно это делает её более уязвимой в определенных тестах на доверие . Если пользователь настойчиво просит модель сгенерировать что-то неэтичное или предвзятое, более «послушная» GPT-4 может пойти навстречу там, где менее совершенная GPT-3.5 просто «промахнулась» бы мимо инструкции .

Это ставит перед разработчиками сложную задачу: в каких случаях модель должна беспрекословно выполнять команду, а в каких — ставить этические барьеры выше инструкций пользователя? Кроме того, Койеджо подчеркивает сложность оценки «черных ящиков» (проприетарных моделей), которые постоянно обновляются . Исследователи не знают точных версий моделей, которые они запрашивают через API, что делает научную воспроизводимость результатов крайне трудной задачей .

🏥 Применимость в медицине и образовании 55:06

Обсуждая практическое применение бенчмарков, Койеджо призывает к осторожности. По его мнению, общие тесты на токсичность или предвзятость могут быть недостаточно информативны для узких областей.

Санми оптимистично смотрит на будущее «персонализированных» или «специализированных» тестов . Он предполагает, что вместо одного гигантского бенчмарка индустрия придет к методам автоматического подбора наиболее релевантных проверок под конкретный контекст использования или ценности конкретного пользователя.

🧪 Проблемы «загрязнения» данных и прозрачности 1:01:18

В завершение беседы участники обсудили технические ограничения современной оценки ИИ.

Одна из главных проблем — «загрязнение» обучающей выборки (data contamination). Поскольку большинство бенчмарков открыты и находятся в интернете, создатели LLM могут (преднамеренно или случайно) обучать свои модели прямо на тестовых данных . Это приводит к искусственно завышенным результатам, которые не отражают реальных способностей системы.

Койеджо также указывает на дефицит прозрачности: без доступа к весам моделей и детальному составу обучающих данных невозможно провести полноценный аудит безопасности . Тем не менее, он считает, что даже оценки методом «черного ящика» (когда проверяется только вход и выход системы) критически важны для понимания того, как ИИ-системы будут вести себя в реальном мире.

💬 Цитаты

«Если я всегда могу найти метрику, которая превратит эмерджентное свойство в неэмерджентное, как нам тогда интерпретировать само понятие эмерджентности?»

Санми Койеджо 00:00

«Для многих задач частичный балл играет огромную роль в калибровке нашего понимания того, что происходит внутри модели.»

Санми Койеджо 15:48
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Эмерджентность (в LLM)
Внезапное и непредсказуемое появление новых способностей у модели при увеличении масштаба её обучения.
Data contamination
Загрязнение обучающих данных тестовыми примерами, что приводит к некорректно высоким результатам в бенчмарках.
Scaling Laws
Математические закономерности, описывающие, как производительность модели растет в зависимости от вычислительных мощностей и объема данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Sanmi Koyejo emergent abilities LLM GPT-4 Decoding Trust