# Как защитить ИИ от атак: CEO Arthur.ai о фаерволах для LLM и снижении галлюцинаций

Источник: https://www.youtube.com/watch?v=o04b9sylblQ
Канал: The Cognitive Revolution
Опубликовано: 19.09.2023

---

В новом эпизоде подкаста *The Cognitive Revolution* ведущий Натан Лабенс (Nathan lebens) обсуждает с **Адамом Венчелом**, генеральным директором компании **Arthur.ai**, критические вопросы безопасности и управления производительностью систем искусственного интеллекта. В условиях, когда генеративный ИИ становится приоритетом для советов директоров крупнейших компаний, на первый план выходит создание механизмов контроля, «фаерволов» для языковых моделей и систем объективной оценки их работы.

## 🛡️ От фрод-мониторинга к защите LLM
[[JUMP:04:03]]

История компании **Arthur.ai** началась в 2018–2019 годах, когда индустрия в основном фокусировалась на классических моделях машинного обучения. **Адам Венчел** отмечает, что его опыт работы в Capital One, где он создавал и масштабировал команду ИИ, заставил его сосредоточиться на проблемах производства: как понять, что модель принимает качественные и справедливые решения, когда она напрямую влияет на финансовое благополучие миллионов клиентов? [04:42]. 

По словам гостя, переход к большим языковым моделям (LLM) радикально изменил ландшафт безопасности:

*   **Детерминизм против вероятности:** Традиционная кибербезопасность работает в детерминированном мире (ошибка в коде — логическая проблема). ИИ перемещает нас в вероятностный мир, где модели обучаются по статистическим паттернам и демонстрируют поведение, которое не было эксплицитно запрограммировано [07:33].
*   **Атаки на границы (Boundary detection):** В классических системах, например, в антифрод-мониторинге, злоумышленники прощупывают пороги срабатывания. **Адам Венчел** привел пример, когда злоумышленники выяснили, что транзакции в люксовых магазинах ниже $500 не флагуются как подозрительные, и научились дробить покупки, чтобы обходить систему [10:10].
*   **Отравление данных (Poisoning attacks):** Хотя в дикой природе это встречается реже, существует риск добавления в обучающую выборку данных, которые заставят модель со временем считать вредоносные действия легитимными [11:30].

## 🧱 Arthur Shield: Фаервол для новой эпохи
[[JUMP:26:10]]

Для решения проблем безопасности LLM компания разработала продукт **Arthur Shield**, который **Адам Венчел** называет «первым фаерволом для языковых моделей» [01:29]. Главная сложность современных систем заключается в том, что пользовательский ввод (текст) передается в модель напрямую, что создает огромную поверхность атаки.

Основные функции безопасности:

1.  **Защита от инъекций (Prompt Injection):** Предотвращение попыток пользователя перехватить управление моделью через скрытые инструкции в тексте [26:10].
2.  **Политики использования:** Контроль за тем, чтобы внутренние инструменты (например, HR-бот) не использовались для сторонних задач, таких как написание маркетинговых копий или планирование отпуска [26:34].
3.  **Мониторинг на этапе инференса:** Проверка как входящих промптов, так и выходящих ответов на предмет токсичности или утечки конфиденциальных данных.

**Адам Венчел** подчеркивает, что полагаться только на rlhf (обучение с подкреплением на основе отзывов людей) недостаточно, особенно для борьбы с галлюцинациями. По его мнению, любая система, принимающая необработанный текст от недоверенного пользователя, фундаментально небезопасна без внешнего контура мониторинга [32:19].

## 📊 Бенчмаркинг и проблема галлюцинаций
[[JUMP:48:46]]

Одной из самых больших проблем для корпоративного сектора остаются галлюцинации ИИ. По данным **Адама Венчела**, использование специализированных инструментов компании позволяет снизить уровень галлюцинаций в среднем на 87% (семикратное улучшение) [52:03]. Однако он признает, что этот показатель всё равно не равен нулю, что критично для таких сфер, как медицина или юриспруденция.

Для объективной оценки моделей был запущен open-source проект **Arthur bench**. Гость критикует существующие общие бенчмарки (например, тесты на знание школьной программы или способность определять простые числа), так как они не являются надежными предикторами работы ИИ на специфических бизнес-данных [59:08].

Рекомендации по оценке от **Arthur.ai**:

*   **Тестовые наборы из 100 примеров:** Как утверждает **Адам Венчел**, создания качественного набора из 100 специфических для компании кейсов часто достаточно, чтобы увидеть реальную разницу в производительности моделей разных поставщиков [1:00:16].
*   **Метрики качества:** Вместо классических «точности» и «полноты» необходимо оценивать такие параметры, как полезность (helpfulness), удобочитаемость (readability), лаконичность (concision) и склонность модели к «хеджированию» (уклонению от прямого ответа) [00:24].
*   **RAG (Retrieval-Augmented Generation):** Почти 100% корпоративных внедрений сегодня используют этот подход — когда модель не просто генерирует текст из «головы», а обращается к проприетарной базе знаний (через векторные БД вроде Pinecone или Weaviate) [48:06].

## 🏦 ИИ в корпоративном секторе: ожидания и риски
[[JUMP:44:37]]

Корпоративная Америка находится в состоянии ажиотажа: генеративный ИИ стал темой номер один для советов директоров. Тем не менее, **Адам Венчел** выделяет два лагеря компаний:

1.  **AI-native лидеры:** Те, кто инвестировал в инфраструктуру данных последние 5 лет, сегодня внедряют LLM за недели [45:16].
2.  **Осторожные последователи:** Крупные организации, которые планируют свои первые значимые релизы на 4-й квартал текущего года, фокусируясь в первую очередь на внутренних инструментах [46:07].

По словам гостя, наиболее популярные кейсы включают автоматический анализ транскриптов колл-центров и поиск по сложной технической документации в промышленности. В инвестиционном банкинге и хедж-фондах ИИ используется для анализа многолетних отчетов, сокращая время получения ответа с недели до минуты [50:31].

## 🔮 Будущее: ответственность и регулирование
[[JUMP:1:13:27]]

Обсуждая долгосрочные перспективы, **Адам Венчел** и Натан Лабенс затронули тему ответственности за действия ИИ. Гость выразил мнение, что компании, внедряющие системы ИИ, должны нести полную юридическую ответственность за их результаты [1:21:35]. 

Интересные факты о поставщиках моделей, озвученные Адамом:

*   **OpenAI:** Лидер по общим возможностям, но часто вызывает раздражение избыточным «хеджированием» (отказами отвечать по этическим соображениям) [1:12:35].
*   **Anthropic (Claude):** Выделяется способностью работать с очень длинными документами и специфическим стилем письма [1:11:30].
*   **Cohere:** Высоко ценится в корпоративном секторе за отличные показатели в многоязычности и минимальный уровень хеджирования в сравнении с конкурентами [1:12:35].

В завершение беседы **Адам Венчел** подчеркнул, что хотя его «хрустальный шар» становится мутным при прогнозировании далее чем на 6 месяцев, он убежден: эффективные системы безопасности не замедлят, а, напротив, ускорят распространение полезных приложений ИИ, давая бизнесу уверенность в контролируемости технологий [02:33].