Шрея Раджпал: «Оценивать ИИ с помощью самого ИИ небезопасно»

В новом выпуске подкаста The TWIML AI Podcast основательница стартапа Guardrails AI Шрея Раджпал подробно разобрала ключевые уязвимости крупных языковых моделей (LLM) при их внедрении в реальный бизнес-продакшен. Эксперт объяснила, почему классического подхода RAG недостаточно для обеспечения безопасности, в чём кроется опасность самовалидации нейросетей и как инженерные принципы из сферы беспилотного вождения помогают делать современные ИИ-приложения надёжными.

🛑 Иллюзия контроля: почему галлюцинации ИИ — это лишь верхушка айсберга 0:00

Шрея Раджпал пришла к созданию систем безопасности LLM, имея за плечами более десяти лет опыта в индустрии машинного обучения. Её карьера охватывает эволюцию от классических алгоритмов ИИ до глубокого обучения, проектирования систем восприятия в беспилотных автомобилях и руководства командой ML-инфраструктуры в стартапе Predabase. По её мнению, галлюцинации моделей сегодня находятся в центре внимания разработчиков просто потому, что они являются наиболее очевидным и легко выявляемым типом сбоя при тестировании прототипов.

Однако при масштабировании приложений на тысячи реальных пользователей бизнес сталкивается с гораздо более тонкими и опасными функциональными рисками. В человеческом обществе существует огромный пласт негласных контекстуальных правил и ограничений, которые люди соблюдают по умолчанию. Перенос этих ожиданий на базовые языковые модели часто приводит к провалу. По словам Раджпал, даже простая инструкция в промпте может быть проигнорирована моделью под воздействием внешних манипуляций со стороны пользователей.

Эксперт выделяет несколько критических категорий рисков для корпоративных ИИ-систем:

Риски производительности и точности: модель формально не врет, но выдает чрезмерно раздутые или слишком лаконичные ответы, игнорирует важный контекст или опирается на нерелевантные разделы документов.
Репутационные риски (Brand risk): генерация контента, который прямо или косвенно вредит имиджу бренда компании. Например, бот сети McDonald's ни при каких обстоятельствах не должен хвалить или упоминать Burger King.
Комплаенс-риски и регуляторные угрозы: совершение моделью действий, на которые у организации нет юридических прав.

Типичным примером регуляторной угрозы Раджпал называет медицинские чат-боты. Если ИИ-ассистент разработан исключительно для ответов на вопросы по оплате медицинских счетов, он не имеет права давать медицинские рекомендации. Тем не менее на практике такие системы очень легко «взломать» (джейлбрейкнуть) в процессе обычного диалога. Пользователь, сокрушающийся о стоимости лечения, может легко увести разговор в сторону, и бот, проявив излишнюю эмпатию, начнет советовать ему альтернативные методы лечения или комментировать течение беременности, что категорически запрещено законом.

🔍 Анатомия галлюцинаций и ограничения архитектуры RAG 8:09

Для систематизации дефектов генерации Шрея Раджпал использует строгую внутреннюю таксономию, разделяя галлюцинации в зависимости от архитектурного воркфлоу ИИ-приложения. Самым популярным паттерном в индустрии сегодня является архитектура RAG (Retrieval-Augmented Generation — генерация с депонированием контекста). Её суть сводится к тому, что система сначала ищет релевантные фрагменты во внутренних закрытых базах данных (например, в справочнике сотрудника), а затем передает их языковой модели для формирования точного ответа.

Главное ожидание бизнеса от RAG — заставить ИИ отвечать строго на основе предоставленных документов, полностью игнорируя фоновые знания, полученные им во время обучения в глобальном интернете. Сбои в таких изолированных контурах Раджпал классифицирует как «галлюцинации в закрытом домене» (closed domain hallucination).

Примерами таких архитектурных сбоев Раджпал называет следующие сценарии:

Искажение сущностей: модель верно передает структуру правила, но путает конкретные цифры. Например, вместо прописанных в регламенте 30 дней отпуска она может уверенно заявить о 25 днях.
Прямое отрицание фактов: система RAG может успешно извлечь нужный документ из базы данных, но на этапе генерации модель выдаст ошибку в духе: «Извините, у нас нет информации о правилах предоставления отпусков».
Инъекция «избыточного вкуса»: добавление моделью непроверенных деталей из её собственной глобальной карты мира, которые могут оказаться как ложными, так и просто нежелательными для компании.

Несмотря на эти уязвимости, гостья подкаста убеждена, что без RAG текущий бум внедрения ИИ в корпоративном секторе был бы невозможен. По её оценке, RAG на сегодняшний день превосходит тонкую настройку (fine-tuning) моделей по соотношению стоимости, трудозатрат и итоговой производительности. Однако разработчикам приходится вести постоянную борьбу с природой LLM, которые стремятся задействовать весь свой масштабный скрытый потенциал там, где от них требуется жесткая механическая точность.

🤖 Проблема «самооценки» ИИ: кто убережёт хранителей? 17:31

Одной из самых острых проблем индустрии Раджпал считает отставание метрик оценки качества ML от возможностей самих технологий. Традиционные инструменты, годами применявшиеся, например, для оценки качества суммаризации текстов, больше не работают. Модель может сгенерировать великолепный и точный аналитический отчет, но с точки зрения старых математических метрик этот результат будет оценен крайне низко из-за изменения структуры предложений.

В условиях дефицита инструментов индустрия массово перешла на паттерн самовалидации (LLM self-evaluation), когда одна модель (например, GPT-4) проверяет корректность ответов другой модели. Шрея Раджпал открыто заявляет, что этот подход вызывает у неё глубокий профессиональный дискомфорт, порождая классическую дилемму: «Кто убережёт самих хранителей?».

По её наблюдениям, полагаться на оценку ИИ силами самого ИИ нельзя из-за трех фундаментальных искажений:

Неравномерное распределение токенов при ранжировании. Эксперименты показывают, что если попросить модель оценить достоверность текста по шкале от 1 до 10, распределение ответов не будет равномерным. Из-за природы предсказания следующего токена модели склонны патологически часто выбирать какую-то одну цифру (например, тройку), отдавая ей до 70% веса без реальных на то оснований.
Цифровой нарциссизм. Крупные языковые модели предвзяты к собственному контенту. При слепом тестировании они склонны оценивать тексты, сгенерированные искусственным интеллектом, значительно выше, чем качественные тексты, написанные экспертами-людьми.
Недетерминированность оценки. Внутренние бенчмарки Guardrails AI показали, что даже при фиксации температуры модели на абсолютном нуле (temperature = 0) многократный прогон одного и того же текста через ИИ-валидатор выдает заметно колеблющиеся показатели точности.

В качестве позитивного сдвига Раджпал отмечает появление специализированных экспертных датасетов, таких как LegalBench, разработанный исследователями Стэнфордского университета для оценки юридических навыков ИИ. Тем не менее для большинства бизнес-задач компаниям по-прежнему приходится собирать бенчмарки вручную. Попытки генерировать тестовые датасеты синтетическим путем вновь упираются в проблему доверия к качеству исходной генерации. Единственным надежным решением Шрея видит использование ИИ лишь как инструмента первичной фильтрации с обязательным последующим краудсорсингом и экспертной модерацией людьми.

🛡️ Проект Guardrails: создание цифрового контура безопасности 26:49

Проект с открытым исходным кодом Guardrails родился в конце прошлого года как ответ на личную боль Шреи Раджпал при разработке собственных ИИ-приложений. Будучи инженером, она осознала, что встраивание стохастических, вероятностных по своей природе языковых моделей в жесткие бизнес-процессы требует создания независимого внешнего контура контроля.

Философия Guardrails AI напрямую вдохновлена архитектурой систем автономного вождения. В беспилотных автомобилях за распознавание пешеходов и грузовиков отвечают глубокие нейросети (perceptions). Однако их сырые выводы никогда не транслируются напрямую на рулевое управление. Они обязательно проходят через вторичный детерминированный слой логики, где зашиты строгие правила физического мира и экспертные знания (например, понимание того, что в зоне пешеходного перехода вероятность появления человека кратно выше).

Программный комплекс Guardrails реализует этот же принцип для текстовых систем:

Каталог валидаторов: набор независимых микропрограмм, которые на лету проверяют выходной поток LLM на соответствие заданным критериям (отсутствие брендов конкурентов, отсутствие медицинских терминов, наличие жесткой структуры).
Контекстное самоисцеление (Self-healing): в случае фиксации ошибки оркестратор Guardrails не просто блокирует ответ, а мгновенно отправляет модели возвратный запрос, куда прикрепляет детальное описание того, какое именно правило безопасности было нарушено, заставляя ИИ оперативно переписать текст.
Кастомизация под latency: разработчик может балансировать систему — использовать тяжелые ИИ-классификаторы для глубокой проверки или переходить на легковесные регулярные выражения (regex) и высокоточные классификаторы без глубокого обучения там, где критически важна скорость ответа.

📊 Практические кейсы: от защиты чат-ботов до безопасного SQL 32:07

Для иллюстрации работы защитного контура Шрея Раджпал приводит три ключевых сценария использования Guardrails в продакшене. Первый — это проверка происхождения информации (provenance) в диалоговых интерфейсах, когда каждая сгенерированная фраза автоматически сопоставляется с первоисточником для верификации её заземления. Второй сценарий — структурирование данных при обработке сложных PDF-документов. Валидаторы следят, чтобы при заполнении итоговых JSON-таблиц финансовые показатели за прошедшие периоды не подменяли собой цифры из текущих квартальных отчетов.

Третьим и самым успешным технологическим кейсом компании является архитектура Text-to-SQL (трансляция запросов на естественном языке в программный код базы данных). В рамках этого сценария Guardrails AI удалось достичь результатов, близких к мировому уровню (state-of-the-art), заняв второе место в профильном лидерборде.

Процесс безопасного выполнения SQL-кода выстроен следующим образом:

Модель генерирует сырой SQL-запрос на основе вопроса пользователя.
Запрос автоматически изолируется и отправляется на выполнение в специальную защищенную «песочницу» (sandbox), содержащую облегченную копию базы данных с минимальным объемом информации.
Если синтаксический анализатор или песочница возвращают ошибку логики, этот контекст возвращается модели для исправления кода.
Параллельно отрабатывают жесткие предикаты безопасности, полностью блокирующие деструктивные команды вроде удаления таблиц (DROP TABLE), даже если злоумышленник пытается реализовать их через инъекцию в чате.

Отвечая на вопрос ведущего, Раджпал подчеркивает, что Guardrails принципиально отличается от классического юнит-тестирования. Юнит-тесты выполняются на этапе сборки приложения и подразумевают абсолютную детерминированность среды. Guardrails же работает непосредственно в рантайме, на живом пути выполнения запроса пользователя. Это создание интеллектуального динамического ансамбля, где защитные слои перекрывают уязвимости друг друга, формируя водонепроницаемый бокс вокруг непредсказуемой нейросети.