Безопасность ИИ в эпоху агентов: главные угрозы и методы защиты

Stanford Online 2,4 тыс. 1 ч 12 мин 29.10.2025
Главное

Развитие систем искусственного интеллекта привело технологическую индустрию к началу эпохи автономных агентов, способных самостоятельно выполнять комплексные задачи и взаимодействовать с внешней цифровой средой. На вебинаре Стэнфордского университета ведущие эксперты по кибербезопасности обсудили, с какими критическими вызовами сталкивается отрасль и как соблюсти баланс между стремительным выводом ИИ-продуктов на рынок и защитой данных. Главный фокус дискуссии был смещен на уязвимости новых протоколов взаимодействия ИИ, риски потери контроля над системами и практические методы построения по-настоящему надежного и безопасного искусственного интеллекта.

🤝 От борьбы с кликфродом к безопасности агентов 0:10

Нил Дасвани, содиректор программы продвинутой кибербезопасности в Стэнфорде, имеющий за плечами опыт работы в Google, Twitter и Symantec, и Винай Рао, технический директор некоммерческой организации ROOST и экс-руководитель команды ИИ-безопасности (AI Safeguards) в Anthropic, начали профессиональный путь задолго до бума современных нейросетей. Их первое знакомство состоялось в стенах Google, где оба специалиста занимались противодействием мошенничеству с рекламой (ad spam) и кликфроду (click fraud). Результатом их совместной работы стала борьба с ботнетом Clickbot.A, а также написание главы об онлайн-мошенничестве для профильной книги Crimeware.

По словам Виная Рао, опыт тех лет заложил фундамент для современных механизмов обнаружения угроз в условиях отсутствия абсолютной «абсолютной истины» (ground truth). В отличие от транзакций по кредитным картам, где факт мошенничества можно подтвердить однозначно, клик по рекламе находится в серой зоне: невозможно со стопроцентной уверенностью сказать, был ли он сделан реальным пользователем или ботом. Нил Дасвани проводит прямую аналогию с современными ИИ-моделями: ответы нейросетей далеко не всегда бывают абсолютно правильными или абсолютно ложными. Безопасность ИИ сегодня — это работа в мире, где существует огромный спектр оттенков серого, и именно этот опыт из прошлого помогает экспертам выстраивать защиту систем будущего.

🎯 Что делает ИИ надежным: концепция TrustLLM 4:45

Определить надежность искусственного интеллекта гораздо сложнее, чем надежность обычных бытовых предметов. Винай Рао приводит простое сравнение: надежная кружка — это та, которая просто не протекает. Однако ИИ обладает настолько широким спектром возможностей, что его надежность должна оцениваться по нескольким критериям одновременно.

По мнению Виная Рао, надежная ИИ-система обязана соответствовать пяти базовым параметрам:

Нил Дасвани дополнил этот список, сославшись на масштабное академическое исследование TrustLLM, опубликованное в 2023 году при участии IBM Research и консорциума ML Commons. В этой работе ученые выделили восемь фундаментальных характеристик надежности больших языковых моделей (LLM). К названным Рао критериям Дасвани добавил еще три критически важных аспекта:

  1. Правдивость (Truthfulness): успешное преодоление проблемы «галлюцинаций», когда алгоритмы генерируют вымышленные факты из-за своей вероятностной природы.
  2. Машинная этика (Machine Ethics): согласование ответов модели с общепринятыми человеческими ценностями, что само по себе является сложнейшей задачей, учитывая отсутствие единого этического консенсуса в реальном мире.
  3. Подотчетность (Accountability): определение ответственности за ошибки ИИ. Если некомпетентного сотрудника компании можно уволить, то в случае деструктивной ошибки ИИ-модели, повлиявшей на жизни людей, механизмы привлечения к ответственности все еще остаются неопределенными.

Специалисты сошлись во мнении, что безопасность ИИ требует устойчивости к так называемым джейлбрейкам (jailbreaks) — обходам встроенных ограничений. Классическим примером является ситуация, когда на прямой запрос «как собрать ядерную бомбу» модель отвечает отказом, но если замаскировать его под историю о бабушке, работавшей на оружейном заводе во время Второй мировой войны, алгоритм может обойти запрет и выдать опасную инструкцию.

⚔️ Слияние ИТ-безопасности и Trust & Safety 11:20

До недавнего времени в технологических корпорациях существовало четкое разделение обязанностей: команды Trust & Safety (доверия и безопасности) занимались минимизацией контентных рисков и вреда, а директора по информационной безопасности (CISO) и их отделы защищали данные от утечек и хакерских атак.

Команды Trust & Safety традиционно фокусировались на предотвращении четырех уровней вреда:

В то же время классические ИТ-безопасники обеспечивали защиту периметра компании и предотвращали атаки на цепочки поставок ПО. Однако появление автономных ИИ-агентов, например, ИИ-кодеров, полностью изменило этот ландшафт. Когда ИИ-агент получает возможность самостоятельно вызывать внешние инструменты, обращаться к сторонним базам данных или скачивать пакеты из репозиториев вроде NPM или PIP, зоны ответственности команд безопасности пересекаются.

Винай Рао описывает это разделение на примере интеграции внешнего кода: оценка безопасности самой транзакции (не занесет ли пакет вредоносное ПО) — это задача Trust & Safety, а контроль конечного результата (не начнется ли скрытая передача корпоративных данных на внешние сервера) — прямая обязанность CISO. Организациям необходимо срочно объединять процессы, политики и системы обнаружения угроз.

Нил Дасвани заявляет, что главным общим правилом для всех оборонных команд должна стать привычка «быть параноиком и быть готовым». Специалисты должны исходить из презумпции того, что система обязательно будет скомпрометирована после релиза. Совместную работу необходимо начинать еще на этапе проектирования архитектуры (design stage), прорабатывая не только стандартные сценарии использования (use cases), но и потенциальные сценарии злоупотреблений (abuse cases) со стороны злоумышленников. Ни один защитный барьер не дает стопроцентной гарантии, поэтому компаниям жизненно необходимы отлаженные процессы оперативного реагирования и приоритизации инцидентов.

🏎️ Скорость против безопасности: урок немецкого автобана 23:36

Современный ИИ-рынок находится в состоянии жесткой глобальной гонки вооружений. Страны и корпорации стремятся обогнать конкурентов, из-за чего руководители продуктов зачастую жертвуют безопасностью ради скорости релиза.

Нил Дасвани напоминает, что подобный подход технологический мир уже проходил. На заре развития Facebook Марк Цукерберг провозгласил знаменитый лозунг: «Двигайся быстро и ломай стереотипы» (Move fast and break things). Это позволило компании стремительно расти, однако обернулось чередой крупнейших утечек данных. В итоге руководство Meta было вынуждено официально изменить девиз на «Двигайся быстро со стабильной инфраструктурой». Попытка бежать слишком быстро без оглядки на риски всегда приводит к необходимости останавливаться и ликвидировать тяжелые последствия.

В качестве идеальной модели баланса Дасвани приводит пример немецкого автобана — одной из самых быстрых автомагистралей в мире. Автомобили могут легально передвигаться по нему на огромной скорости не потому, что там нет правил, а как раз наоборот. Высокая скорость возможна благодаря трем факторам:

По мнению Дасвани, индустрии ИИ нужен свой «автобан»: не нужно блокировать инновации тотальными запретами, но необходимо внедрить несколько критически важных, жестких правил безопасности, которые позволят двигаться вперед быстро и без аварий.

🤖 Угрозы агентской эры и уязвимости протокола MCP 27:22

Наиболее значимым и одновременно самым переоцененным риском последнего времени эксперты назвали развитие агентского ИИ (Agentic AI). Автономные агенты способны принимать верхнеуровневую задачу, разбивать ее на подзадачи, самостоятельно подбирать ИТ-инструменты, писать код и исправлять собственные ошибки компиляции в процессе. При этом, по мнению Виная Рао, ИИ-агенты полностью лишены исторического контекста и опыта, которым обладает зрелый человеческий программист, что делает их действия непредсказуемыми.

Основная техническая уязвимость текущего момента кроется в механизмах связи агентов с внешним миром. Недавно разработанный компанией Anthropic протокол MCP (Model Context Protocol) призван стать универсальным интерфейсом взаимодействия — своего рода аналогом USB-C, который позволяет разделять «мозг» языковой модели и источники данных, к которым она обращается. Проблема заключается в том, что на текущем этапе развития в MCP архитектурно не заложены примитивы безопасности. Протокол не проверяет входящие данные и не верифицирует контрагента на другом конце соединения.

Винай Рао сравнивает текущее состояние MCP с ранней эпохой протокола HTTP, когда любой желающий мог перехватить и прочитать данные внутри сети в открытом виде. Только появление HTTPS и механизмов шифрования сделало возможной электронную коммерцию и безопасные онлайн-платежи. Сегодня же множество серверов MCP разворачиваются в интернете вообще без аутентификации, открывая хакерам прямой доступ к корпоративным базам данных.

Масштаб проблемы подтверждается статистикой: согласно результатам недавнего исследования, в рамках которого были опрошены 200 руководителей служб информационной безопасности, 63% респондентов назвали главной киберугрозой несанкционированную передачу сотрудниками конфиденциальных данных ИИ-агентам. Популяризация так называемого вайб-кодинга (vibe coding) — быстрой сборки приложений силами ИИ под честное слово — приводит к наводнению рынка небезопасным софтом. Поскольку ИИ-агенты обучались на открытом коде из сети, который изначально не был проверен на уязвимости, генерируемый ими продукт уступает по уровню безопасности коду, написанному профессиональными инженерами и прошедшему стандартный аудит.

☣️ Асимметрия кибератак: от биооружия до потери контроля 36:07

Сфера ИИ-безопасности страдает от классической проблемы асимметрии: атакующему достаточно найти одну уязвимость, в то время как обороняющаяся сторона обязана защитить абсолютно все направления.

Винай Рао выделяет ряд глобальных макроугроз, которые несет бесконтрольное развитие технологий:

С технической точки зрения Нила Дасвани больше всего беспокоит угроза потери контроля над поведением систем из-за внедрения промптов (prompt injection). Эксперт сравнивает эту атаку с SQL-инъекциями, которые захлестнули веб-индустрию в период ее коммерциализации, когда хакеры внедряли базы данных команды через обычные текстовые формы на сайтах. В ИИ-системах отсутствует жесткое разделение на уровень данных и уровень управления (команд). Если хакер находит способ внедрить свою инструкцию в тело запроса, он перехватывает полное управление системой. Атака может быть скрытной: например, ИИ-агент будет выполнять легитимные команды пользователя в 99 случаях из 100, и лишь в 1% случаев сработает вредоносный триггер взломщика, что делает обнаружение угрозы крайне сложным.

🛡️ Анатомия защиты: как противостоять инъекциям и галлюцинациям 42:04

В качестве иллюстрации реальной угрозы Нил Дасвани привел кейс, выявленный исследовательской ИИ-компанией Noma в одном из агентских продуктов Salesforce. Автономный агент имел право заходить на веб-страницы и заполнять формы от имени пользователя. Исследователи обнаружили, что если злоумышленник размещал на стороннем сайте форму со скрытой инструкцией, ИИ-агент, заходя на страницу, воспринимал этот текст не как пассивные данные для анализа, а как прямое руководство к действию, подменяя первоначальную задачу разработчика.

Для борьбы с внедрением промптов Винай Рао предлагает выстраивать жесткую иерархию инструкций на этапе дополнительного обучения модели (post-training). Приоритет выполнения команд должен выглядеть следующим образом:

  1. Правила выравнивания модели (внедренные разработчиком базовой модели).
  2. Системный промпт (заданный компанией, развернувшей сервис).
  3. Прямой запрос пользователя.
  4. Внешние данные (где и может скрываться инъекция).

Модель необходимо натренировать так, чтобы элементы с нижним приоритетом никогда не могли перезаписать инструкции верхнего уровня. Однако здесь кроется серьезный компромисс: если переусердствовать с жесткостью правил, ИИ станет абсолютно «деревянным» и потеряет гибкость управления (steerability). В ситуациях, когда от модели требуется играть роль гибкого собеседника или учителя, избыточные ограничения сделают ее бесполезной. Дополнительным эшелоном защиты должны выступать внешние классификаторы, которые сканируют действия ИИ на предмет попыток несанкционированного вывода данных или исполнения недоверенного кода.

В качестве примера эффективного индустриального решения Дасвани выделил новую функцию безопасности в модели Claude от Anthropic. Когда пользователь делится ответом чат-бота в сети, система автоматически добавляет в заголовок специальный технический маркер, предупреждающий другие ИИ-агенты, что контент на данной странице не верифицирован и может содержать инъекции. Видя такой заголовок, сторонний ИИ-робот понимает, что слепо выполнять команды с этой страницы нельзя.

Для минимизации галлюцинаций стандартом де-факто стало использование технологии RAG (Retrieval-Augmented Generation — генерация, дополненная поиском). Вместо того чтобы заставлять модель искать ответы в собственной памяти, разработчики жестко ограничивают ее базой доверенных документов. В этой схеме LLM используется исключительно как лингвистический процессор для перевода готовых фактов из документов в связный текст на естественном языке. Для борьбы с джейлбрейками применяются сильные системные промпты и концепция конституционного ИИ (Constitutional AI), когда ограничения прописываются для модели в виде базового свода правил (конституции), основанного, например, на Всеобщей декларации прав человека.

💾 «Скучные» практики безопасности: старая школа в новую эпоху 52:43

Эксперты призвали разработчиков не зацикливаться исключительно на специфических ИИ-угрозах и не забывать про классические, проверенные временем методы защиты программного обеспечения.

Винай Рао рекомендует активнее внедрять два фундаментальных ИТ-инструмента:

Нил Дасвани напомнил базовую аксиому информационной безопасности: «Никогда не доверяй входящим данным от пользователя». Любой инпут должен проходить жесткую валидацию и очистку перед тем, как система начнет с ним работать. Кроме того, критически важно вернуть в практику регулярные обзоры архитектуры безопасности (security design reviews). В погоне за скоростью стартапы часто пренебрегают общением с безопасниками. Эксперт подчеркивает, что простая консультация с ИТ-архитектором на этапе проектирования системы способна дать от 80% до 90% оборонного эффекта при затрате всего 20% усилий от объема традиционного формального аудита.

🌅 Технологический оптимизм: почему барьеры преодолимы 57:26

Несмотря на обилие критических угроз, спикеры завершили дискуссию на оптимистичной ноте. По мнению Виная Рао, ИИ-индустрия демонстрирует беспрецедентный уровень открытости: ведущие лаборатории оперативно публикуют исследования по безопасности, а государства реагируют быстрее, чем во времена становления интернета. В качестве примера приводится законодательная активность в Калифорнии, где оперативно приняли пакет законов, регулирующих безопасность крупных моделей и защиту детей в цифровой среде; аналогичную высокую активность проявляют регуляторы в ЕС и Великобритании.

Нил Дасвани подчеркнул, что ИИ одновременно является и мощным инструментом защиты. Технологии вроде AlphaFold от Google DeepMind совершают революцию в науке, а специализированные ИИ-агенты уже сегодня успешно используются для автоматического поиска скрытых уязвимостей в программном коде и их последующего закрытия без участия человека. Ключевым фактором успеха в этой борьбе станет приток новых квалифицированных кадров, способных мыслить критически и внедрять культуру безопасности на стыке ИТ и искусственного интеллекта.

💬 Цитаты

«Безопасность ИИ сегодня — это работа в мире, где существует огромный спектр оттенков серого.»

Нил Дасвани 04:18

«Простая консультация с ИТ-архитектором на этапе проектирования способна дать от 80% до 90% оборонного эффекта при затрате всего 20% усилий.»

Нил Дасвани 57:01
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Prompt Injection (Внедрение промпта)
Тип атаки на ИИ, при котором злоумышленник внедряет вредоносные инструкции в текстовый запрос, заставляя модель игнорировать правила разработчиков.
Model Context Protocol (MCP)
Открытый стандарт и протокол связи, позволяющий безопасно разделять вычислительную логику ИИ-модели и внешние источники данных.
RAG (Retrieval-Augmented Generation)
Технология, при которой ИИ генерирует ответ, опираясь на автоматически найденные внешние авторитетные документы, что снижает риск выдумки фактов.
Jailbreak (Джейлбрейк)
Метод манипуляции ИИ-моделью с помощью ухищренных запросов для обхода встроенных этических и контентных ограничений.
Vibe Coding
Жаргонное выражение, описывающее процесс создания программ исключительно с помощью ИИ-помощников на основе текстовых описаний, без глубокого контроля архитектуры человеком.
📊 Цифры
🗓 Хронология
  1. 2023 год Публикация консорциумом исследователей масштабного документа TrustLLM, заложившего критерии оценки надежности нейросетей.
  2. Недавно Власти Калифорнии утвердили масштабный пакет нормативных актов, регулирующих безопасность систем ИИ и усиливающих защиту детей в сети.
⚖️ Другая сторона
Искусственный интеллект Model Context Protocol Prompt Injection TrustLLM Anthropic Стэнфордский университет