Как защитить ИИ от атак: CEO Arthur.ai о фаерволах для LLM и снижении галлюцинаций

The Cognitive Revolution 576 1 ч 23 мин 4 мин 19.09.2023
Главное

В новом эпизоде подкаста The Cognitive Revolution ведущий Натан Лабенс (Nathan lebens) обсуждает с Адамом Венчелом, генеральным директором компании Arthur.ai, критические вопросы безопасности и управления производительностью систем искусственного интеллекта. В условиях, когда генеративный ИИ становится приоритетом для советов директоров крупнейших компаний, на первый план выходит создание механизмов контроля, «фаерволов» для языковых моделей и систем объективной оценки их работы.

🛡️ От фрод-мониторинга к защите LLM 4:03

История компании Arthur.ai началась в 2018–2019 годах, когда индустрия в основном фокусировалась на классических моделях машинного обучения. Адам Венчел отмечает, что его опыт работы в Capital One, где он создавал и масштабировал команду ИИ, заставил его сосредоточиться на проблемах производства: как понять, что модель принимает качественные и справедливые решения, когда она напрямую влияет на финансовое благополучие миллионов клиентов? .

По словам гостя, переход к большим языковым моделям (LLM) радикально изменил ландшафт безопасности:

🧱 Arthur Shield: Фаервол для новой эпохи 26:10

Для решения проблем безопасности LLM компания разработала продукт Arthur Shield, который Адам Венчел называет «первым фаерволом для языковых моделей» . Главная сложность современных систем заключается в том, что пользовательский ввод (текст) передается в модель напрямую, что создает огромную поверхность атаки.

Основные функции безопасности:

  1. Защита от инъекций (Prompt Injection): Предотвращение попыток пользователя перехватить управление моделью через скрытые инструкции в тексте .
  2. Политики использования: Контроль за тем, чтобы внутренние инструменты (например, HR-бот) не использовались для сторонних задач, таких как написание маркетинговых копий или планирование отпуска .
  3. Мониторинг на этапе инференса: Проверка как входящих промптов, так и выходящих ответов на предмет токсичности или утечки конфиденциальных данных.

Адам Венчел подчеркивает, что полагаться только на rlhf (обучение с подкреплением на основе отзывов людей) недостаточно, особенно для борьбы с галлюцинациями. По его мнению, любая система, принимающая необработанный текст от недоверенного пользователя, фундаментально небезопасна без внешнего контура мониторинга .

📊 Бенчмаркинг и проблема галлюцинаций 48:46

Одной из самых больших проблем для корпоративного сектора остаются галлюцинации ИИ. По данным Адама Венчела, использование специализированных инструментов компании позволяет снизить уровень галлюцинаций в среднем на 87% (семикратное улучшение) . Однако он признает, что этот показатель всё равно не равен нулю, что критично для таких сфер, как медицина или юриспруденция.

Для объективной оценки моделей был запущен open-source проект Arthur bench. Гость критикует существующие общие бенчмарки (например, тесты на знание школьной программы или способность определять простые числа), так как они не являются надежными предикторами работы ИИ на специфических бизнес-данных .

Рекомендации по оценке от Arthur.ai:

🏦 ИИ в корпоративном секторе: ожидания и риски 44:37

Корпоративная Америка находится в состоянии ажиотажа: генеративный ИИ стал темой номер один для советов директоров. Тем не менее, Адам Венчел выделяет два лагеря компаний:

  1. AI-native лидеры: Те, кто инвестировал в инфраструктуру данных последние 5 лет, сегодня внедряют LLM за недели .
  2. Осторожные последователи: Крупные организации, которые планируют свои первые значимые релизы на 4-й квартал текущего года, фокусируясь в первую очередь на внутренних инструментах .

По словам гостя, наиболее популярные кейсы включают автоматический анализ транскриптов колл-центров и поиск по сложной технической документации в промышленности. В инвестиционном банкинге и хедж-фондах ИИ используется для анализа многолетних отчетов, сокращая время получения ответа с недели до минуты .

🔮 Будущее: ответственность и регулирование 1:13:27

Обсуждая долгосрочные перспективы, Адам Венчел и Натан Лабенс затронули тему ответственности за действия ИИ. Гость выразил мнение, что компании, внедряющие системы ИИ, должны нести полную юридическую ответственность за их результаты .

Интересные факты о поставщиках моделей, озвученные Адамом:

В завершение беседы Адам Венчел подчеркнул, что хотя его «хрустальный шар» становится мутным при прогнозировании далее чем на 6 месяцев, он убежден: эффективные системы безопасности не замедлят, а, напротив, ускорят распространение полезных приложений ИИ, давая бизнесу уверенность в контролируемости технологий .

💬 Цитаты

«Мы обычно снижаем уровень галлюцинаций на 87%, что является семикратным улучшением, но это всё еще не ноль.»

Адам Венчел 52:03

«Любая система, принимающая необработанный текст от недоверенного пользователя, фундаментально небезопасна без внешнего контура мониторинга.»

Адам Венчел 32:19
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ-модель дополняет свои знания, обращаясь к внешним доверенным базам данных перед генерацией ответа.
LLM (Large Language Model)
Большая языковая модель, обученная на огромных массивах текста для понимания и генерации человеческой речи.
Prompt Injection
Тип атаки, при которой злоумышленник внедряет в запрос скрытые инструкции, заставляющие модель игнорировать правила безопасности.
Инференс
Процесс использования обученной модели для получения предсказаний или ответов на новые входные данные.
📊 Цифры
🗓 Хронология
  1. 2018 Основание компании Arthur (изначально как компании по безопасности ИИ).
  2. Ноябрь 2022 Релиз ChatGPT, ставший «водоразделом» для индустрии и интереса советов директоров.
  3. 2023 Выпуск Arthur Shield (фаервол для LLM) и open-source инструмента Arthur bench.
⚖️ Другая сторона
Искусственный интеллект Адам Венчел Arthur.ai Arthur Shield Arthur bench LLM security