Как защитить ИИ от атак: CEO Arthur.ai о фаерволах для LLM и снижении галлюцинаций

В новом эпизоде подкаста The Cognitive Revolution ведущий Натан Лабенс (Nathan lebens) обсуждает с Адамом Венчелом, генеральным директором компании Arthur.ai, критические вопросы безопасности и управления производительностью систем искусственного интеллекта. В условиях, когда генеративный ИИ становится приоритетом для советов директоров крупнейших компаний, на первый план выходит создание механизмов контроля, «фаерволов» для языковых моделей и систем объективной оценки их работы.

🛡️ От фрод-мониторинга к защите LLM 4:03

История компании Arthur.ai началась в 2018–2019 годах, когда индустрия в основном фокусировалась на классических моделях машинного обучения. Адам Венчел отмечает, что его опыт работы в Capital One, где он создавал и масштабировал команду ИИ, заставил его сосредоточиться на проблемах производства: как понять, что модель принимает качественные и справедливые решения, когда она напрямую влияет на финансовое благополучие миллионов клиентов? .

По словам гостя, переход к большим языковым моделям (LLM) радикально изменил ландшафт безопасности:

Детерминизм против вероятности: Традиционная кибербезопасность работает в детерминированном мире (ошибка в коде — логическая проблема). ИИ перемещает нас в вероятностный мир, где модели обучаются по статистическим паттернам и демонстрируют поведение, которое не было эксплицитно запрограммировано .
Атаки на границы (Boundary detection): В классических системах, например, в антифрод-мониторинге, злоумышленники прощупывают пороги срабатывания. Адам Венчел привел пример, когда злоумышленники выяснили, что транзакции в люксовых магазинах ниже $500 не флагуются как подозрительные, и научились дробить покупки, чтобы обходить систему .
Отравление данных (Poisoning attacks): Хотя в дикой природе это встречается реже, существует риск добавления в обучающую выборку данных, которые заставят модель со временем считать вредоносные действия легитимными .

🧱 Arthur Shield: Фаервол для новой эпохи 26:10

Для решения проблем безопасности LLM компания разработала продукт Arthur Shield, который Адам Венчел называет «первым фаерволом для языковых моделей» . Главная сложность современных систем заключается в том, что пользовательский ввод (текст) передается в модель напрямую, что создает огромную поверхность атаки.

Основные функции безопасности:

Защита от инъекций (Prompt Injection): Предотвращение попыток пользователя перехватить управление моделью через скрытые инструкции в тексте .
Политики использования: Контроль за тем, чтобы внутренние инструменты (например, HR-бот) не использовались для сторонних задач, таких как написание маркетинговых копий или планирование отпуска .
Мониторинг на этапе инференса: Проверка как входящих промптов, так и выходящих ответов на предмет токсичности или утечки конфиденциальных данных.

Адам Венчел подчеркивает, что полагаться только на rlhf (обучение с подкреплением на основе отзывов людей) недостаточно, особенно для борьбы с галлюцинациями. По его мнению, любая система, принимающая необработанный текст от недоверенного пользователя, фундаментально небезопасна без внешнего контура мониторинга .

📊 Бенчмаркинг и проблема галлюцинаций 48:46

Одной из самых больших проблем для корпоративного сектора остаются галлюцинации ИИ. По данным Адама Венчела, использование специализированных инструментов компании позволяет снизить уровень галлюцинаций в среднем на 87% (семикратное улучшение) . Однако он признает, что этот показатель всё равно не равен нулю, что критично для таких сфер, как медицина или юриспруденция.

Для объективной оценки моделей был запущен open-source проект Arthur bench. Гость критикует существующие общие бенчмарки (например, тесты на знание школьной программы или способность определять простые числа), так как они не являются надежными предикторами работы ИИ на специфических бизнес-данных .

Рекомендации по оценке от Arthur.ai:

Тестовые наборы из 100 примеров: Как утверждает Адам Венчел, создания качественного набора из 100 специфических для компании кейсов часто достаточно, чтобы увидеть реальную разницу в производительности моделей разных поставщиков .
Метрики качества: Вместо классических «точности» и «полноты» необходимо оценивать такие параметры, как полезность (helpfulness), удобочитаемость (readability), лаконичность (concision) и склонность модели к «хеджированию» (уклонению от прямого ответа) .
RAG (Retrieval-Augmented Generation): Почти 100% корпоративных внедрений сегодня используют этот подход — когда модель не просто генерирует текст из «головы», а обращается к проприетарной базе знаний (через векторные БД вроде Pinecone или Weaviate) .

🏦 ИИ в корпоративном секторе: ожидания и риски 44:37

Корпоративная Америка находится в состоянии ажиотажа: генеративный ИИ стал темой номер один для советов директоров. Тем не менее, Адам Венчел выделяет два лагеря компаний:

AI-native лидеры: Те, кто инвестировал в инфраструктуру данных последние 5 лет, сегодня внедряют LLM за недели .
Осторожные последователи: Крупные организации, которые планируют свои первые значимые релизы на 4-й квартал текущего года, фокусируясь в первую очередь на внутренних инструментах .

По словам гостя, наиболее популярные кейсы включают автоматический анализ транскриптов колл-центров и поиск по сложной технической документации в промышленности. В инвестиционном банкинге и хедж-фондах ИИ используется для анализа многолетних отчетов, сокращая время получения ответа с недели до минуты .

🔮 Будущее: ответственность и регулирование 1:13:27

Обсуждая долгосрочные перспективы, Адам Венчел и Натан Лабенс затронули тему ответственности за действия ИИ. Гость выразил мнение, что компании, внедряющие системы ИИ, должны нести полную юридическую ответственность за их результаты .

Интересные факты о поставщиках моделей, озвученные Адамом:

OpenAI: Лидер по общим возможностям, но часто вызывает раздражение избыточным «хеджированием» (отказами отвечать по этическим соображениям) .
Anthropic (Claude): Выделяется способностью работать с очень длинными документами и специфическим стилем письма .
Cohere: Высоко ценится в корпоративном секторе за отличные показатели в многоязычности и минимальный уровень хеджирования в сравнении с конкурентами .

В завершение беседы Адам Венчел подчеркнул, что хотя его «хрустальный шар» становится мутным при прогнозировании далее чем на 6 месяцев, он убежден: эффективные системы безопасности не замедлят, а, напротив, ускорят распространение полезных приложений ИИ, давая бизнесу уверенность в контролируемости технологий .