Майкл Кернс: «Галлюцинации ИИ — это цена его универсальности»

Профессор Пенсильванского университета и исследователь Amazon Майкл Кернс (Michael Kearns) возвращается на подкаст TWIML AI, чтобы обсудить сейсмические сдвиги в области ответственного ИИ (Responsible AI). За прошедший год индустрия перешла от предсказательных моделей к генеративным, что породило новые вызовы — от галлюцинаций и токсичности до проблем защиты интеллектуальной собственности.

🌀 Новая эра: от классификации к генерации 0:52

За последний год ландшафт искусственного интеллекта изменился до неузнаваемости. По мнению Майкла Кернса, главная сила современных генеративных моделей заключается в их открытости (open-endedness). Однако именно эта черта становится основным источником проблем для обеспечения безопасности .

В отличие от «старых» моделей, которые решали конкретные задачи (например, предсказание выплаты кредита по анкете), генеративные системы работают с неструктурированными данными. Кернс подчеркивает ключевые отличия:

Отсутствие четких границ ошибок: Если модель оценки кредитоспособности могла выдать ложноположительный результат, то в случае с LLM (большими языковыми моделями) мы сталкиваемся с понятием «галлюцинации», которое неприменимо к классическим вычислениям .
Сложность оценки: Ввод данных теперь может быть любым предложением, которое только может вообразить человек, а вывод — такой же свободной формой. Это делает покрытие (coverage) тестами практически невозможным .

📋 Сервисные карты (Service Cards) и прозрачность 1:31

Проект сервисных карт Amazon, представленный годом ранее, превратился в «хорошо отлаженный механизм» . Эти документы служат краткими руководствами для пользователей, описывая назначение моделей, рекомендуемые сценарии использования и метрики ответственного ИИ.

Майкл Кернс признает, что сервисные карты — это лишь «верхушка айсберга» . Под капотом находится огромный пласт количественного анализа, но не всё поддается оцифровке. Кернс утверждает, что индустрия и наука пока не выработали надежных способов измерения таких вещей, как «присвоение стиля» автора языковой моделью . В таких случаях разработчикам приходится полагаться на качественные оценки и рекомендации.

📏 Проблема оценки LLM и бенчмарки 5:41

Одним из главных анонсов конференции AWS re:Invent стала новая функция оценки моделей в сервисах Bedrock и SageMaker. Она позволяет клиентам сравнивать модели, используя в том числе стандарт Helm (Stanford University), который постепенно становится индустриальным эталоном .

Кернс выделяет несколько фундаментальных сложностей в оценке LLM:

Субъективность: В генерации текста часто нет «правильного» ответа.
Зависимость от контекста: Галлюцинация в журналистике — это критическая ошибка, но в исторической беллетристике она может быть допустимым художественным вымыслом .
Избыточность метрик: Исследователи рискуют «утонуть в море цифр», когда разные метрики измеряют фактически одно и то же .

По мнению гостя, со временем индустрия перейдет от общих бенчмарков к метрикам для конкретных сценариев использования, что позволит точнее настраивать модели под нужды бизнеса .

🛡️ Борьба с галлюцинациями: стражи и архитектура 15:57

Сегодня основным методом борьбы с галлюцинациями является RAG (Retrieval-Augmented Generation — генерация с расширенным поиском). Однако Кернс называет текущие методы защиты, такие как «модели-гарды» (guardrail models), своего рода «пластырями» .

В сообществе безопасности существует термин «Bolton security» — когда система строится уязвимой, а патчи накладываются постфактум. Кернс считает, что ИИ сейчас находится на этой стадии. Его видение будущего заключается в «эндогенизации» ограничений:

Вместо того чтобы приставлять к модели «бота-надзирателя», который блокирует токсичные ответы, нужно внедрять эти ограничения прямо в процесс обучения .
Примером такого подхода является RLHF (обучение с подкреплением на основе отзывов людей), но исследователям еще предстоит научиться эффективно менять саму функцию потерь (loss function), чтобы модель органически избегала нежелательного контента .

🔒 Приватность и «чистые комнаты» (Clean Rooms) 27:34

Майкл Кернс подробнее остановился на запуске сервиса Clean Rooms ML с поддержкой дифференциальной приватности (Differential Privacy, DP). Это технология, которую Кернс изучал совместно с экспертом Аароном Ротом (Aaron Roth) .

Суть технологии в Clean Rooms:

Владелец данных предоставляет доступ к датасету в изолированной среде.
При запросах (например, о проценте игроков в видеоигры в возрасте от 19 до 35 лет) система добавляет в ответ математически выверенный «шум» .
Этот шум делает невозможным обратный инжиниринг данных для идентификации конкретного человека, но сохраняет статистическую точность для бизнеса .

«Священным Граалем» науки Кернс называет создание синтетических датасетов с полной дифференциальной приватностью, которые позволяли бы проводить любые эксперименты машинного обучения с тем же результатом, что и на реальных данных, без малейшего риска утечки личной информации .

🌿 Ответственный ИИ «в дикой природе» 33:56

В недавней статье «Responsible AI in the wild», написанной в соавторстве с Аароном Ротом, Кернс резюмирует уроки работы в AWS за последние три с половиной года. Один из главных выводов: привычные академические подходы часто пасуют перед реальностью .

Проблема модальности: В теории мы работаем с таблицами, где есть колонки «раса» или «пол». В аудиосигналах (распознавание речи) таких меток нет. Вместо гадания по демографии Кернс предлагает фокусироваться на том, что реально варьируется в данных — например, региональные акценты и диалекты .
ИИ-активизм: Кернс считает движение активистов, журналистов и сторонних исследователей здоровой силой для индустрии. Он поддерживает идею «bias bounties» (вознаграждение за поиск предвзятости) — переход от враждебных аудитов к кооперации между разработчиками и общественностью .

В завершение Майкл Кернс признается, что, несмотря на 40-летний стаж в науке, он чувствует некоторое пресыщение от хайпа вокруг ChatGPT на каждом семейном ужине, но считает текущий момент невероятно захватывающим временем для технологий .