# Майкл Кернс: «Галлюцинации ИИ — это цена его универсальности»

Источник: https://www.youtube.com/watch?v=pre68IqlrA0
Канал: The TWIML AI Podcast
Опубликовано: 21.12.2023

---

Профессор Пенсильванского университета и исследователь Amazon Майкл Кернс (Michael Kearns) возвращается на подкаст TWIML AI, чтобы обсудить сейсмические сдвиги в области ответственного ИИ (Responsible AI). За прошедший год индустрия перешла от предсказательных моделей к генеративным, что породило новые вызовы — от галлюцинаций и токсичности до проблем защиты интеллектуальной собственности.

## 🌀 Новая эра: от классификации к генерации
[[JUMP:00:52]]

За последний год ландшафт искусственного интеллекта изменился до неузнаваемости. По мнению Майкла Кернса, главная сила современных генеративных моделей заключается в их открытости (open-endedness). Однако именно эта черта становится основным источником проблем для обеспечения безопасности [01:06].

В отличие от «старых» моделей, которые решали конкретные задачи (например, предсказание выплаты кредита по анкете), генеративные системы работают с неструктурированными данными. Кернс подчеркивает ключевые отличия:

*   **Отсутствие четких границ ошибок:** Если модель оценки кредитоспособности могла выдать ложноположительный результат, то в случае с LLM (большими языковыми моделями) мы сталкиваемся с понятием «галлюцинации», которое неприменимо к классическим вычислениям [03:05].
*   **Сложность оценки:** Ввод данных теперь может быть любым предложением, которое только может вообразить человек, а вывод — такой же свободной формой. Это делает покрытие (coverage) тестами практически невозможным [09:02].

## 📋 Сервисные карты (Service Cards) и прозрачность
[[JUMP:01:31]]

Проект сервисных карт Amazon, представленный годом ранее, превратился в «хорошо отлаженный механизм» [02:07]. Эти документы служат краткими руководствами для пользователей, описывая назначение моделей, рекомендуемые сценарии использования и метрики ответственного ИИ.

Майкл Кернс признает, что сервисные карты — это лишь «верхушка айсберга» [05:00]. Под капотом находится огромный пласт количественного анализа, но не всё поддается оцифровке. Кернс утверждает, что индустрия и наука пока не выработали надежных способов измерения таких вещей, как «присвоение стиля» автора языковой моделью [04:37]. В таких случаях разработчикам приходится полагаться на качественные оценки и рекомендации.

## 📏 Проблема оценки LLM и бенчмарки
[[JUMP:05:41]]

Одним из главных анонсов конференции AWS re:Invent стала новая функция оценки моделей в сервисах Bedrock и SageMaker. Она позволяет клиентам сравнивать модели, используя в том числе стандарт Helm (Stanford University), который постепенно становится индустриальным эталоном [07:11].

Кернс выделяет несколько фундаментальных сложностей в оценке LLM:

1.  **Субъективность:** В генерации текста часто нет «правильного» ответа.
2.  **Зависимость от контекста:** Галлюцинация в журналистике — это критическая ошибка, но в исторической беллетристике она может быть допустимым художественным вымыслом [12:28].
3.  **Избыточность метрик:** Исследователи рискуют «утонуть в море цифр», когда разные метрики измеряют фактически одно и то же [09:28].

По мнению гостя, со временем индустрия перейдет от общих бенчмарков к метрикам для конкретных сценариев использования, что позволит точнее настраивать модели под нужды бизнеса [14:02].

## 🛡️ Борьба с галлюцинациями: стражи и архитектура
[[JUMP:15:57]]

Сегодня основным методом борьбы с галлюцинациями является RAG (Retrieval-Augmented Generation — генерация с расширенным поиском). Однако Кернс называет текущие методы защиты, такие как «модели-гарды» (guardrail models), своего рода «пластырями» [20:21].

В сообществе безопасности существует термин «Bolton security» — когда система строится уязвимой, а патчи накладываются постфактум. Кернс считает, что ИИ сейчас находится на этой стадии. Его видение будущего заключается в «эндогенизации» ограничений:

*   Вместо того чтобы приставлять к модели «бота-надзирателя», который блокирует токсичные ответы, нужно внедрять эти ограничения прямо в процесс обучения [18:10].
*   Примером такого подхода является RLHF (обучение с подкреплением на основе отзывов людей), но исследователям еще предстоит научиться эффективно менять саму функцию потерь (loss function), чтобы модель органически избегала нежелательного контента [20:48].

## 🔒 Приватность и «чистые комнаты» (Clean Rooms)
[[JUMP:27:34]]

Майкл Кернс подробнее остановился на запуске сервиса Clean Rooms ML с поддержкой дифференциальной приватности (Differential Privacy, DP). Это технология, которую Кернс изучал совместно с экспертом Аароном Ротом (Aaron Roth) [27:44].

Суть технологии в Clean Rooms:

1.  Владелец данных предоставляет доступ к датасету в изолированной среде.
2.  При запросах (например, о проценте игроков в видеоигры в возрасте от 19 до 35 лет) система добавляет в ответ математически выверенный «шум» [29:45].
3.  Этот шум делает невозможным обратный инжиниринг данных для идентификации конкретного человека, но сохраняет статистическую точность для бизнеса [30:11].

«Священным Граалем» науки Кернс называет создание синтетических датасетов с полной дифференциальной приватностью, которые позволяли бы проводить любые эксперименты машинного обучения с тем же результатом, что и на реальных данных, без малейшего риска утечки личной информации [33:16].

## 🌿 Ответственный ИИ «в дикой природе»
[[JUMP:33:56]]

В недавней статье «Responsible AI in the wild», написанной в соавторстве с Аароном Ротом, Кернс резюмирует уроки работы в AWS за последние три с половиной года. Один из главных выводов: привычные академические подходы часто пасуют перед реальностью [34:22].

*   **Проблема модальности:** В теории мы работаем с таблицами, где есть колонки «раса» или «пол». В аудиосигналах (распознавание речи) таких меток нет. Вместо гадания по демографии Кернс предлагает фокусироваться на том, что реально варьируется в данных — например, региональные акценты и диалекты [36:02].
*   **ИИ-активизм:** Кернс считает движение активистов, журналистов и сторонних исследователей здоровой силой для индустрии. Он поддерживает идею «bias bounties» (вознаграждение за поиск предвзятости) — переход от враждебных аудитов к кооперации между разработчиками и общественностью [37:23].

В завершение Майкл Кернс признается, что, несмотря на 40-летний стаж в науке, он чувствует некоторое пресыщение от хайпа вокруг ChatGPT на каждом семейном ужине, но считает текущий момент невероятно захватывающим временем для технологий [38:42].