Эксперты a16z о безопасности DeepSeek: скрытые угрозы и правила внедрения

a16z (Andreessen Horowitz) 1,9 тыс. 15 мин 5 мин 28.02.2025
Главное

Взрывной рост популярности новой китайской языковой модели DeepSeek вызвал бурные дискуссии в ИТ-индустрии: одни видят в ней начало «золотого века» доступного ИИ, другие — угрозу безопасности и инструмент влияния Пекина. В новом видеоподкасте венчурного фонда a16z ведущий и приглашенный эксперт по кибербезопасности подробно разбирают результаты тестирования модели, скрытые риски ее архитектуры и дают рекомендации для бизнеса по ее безопасному использованию.

🌐 Феномен DeepSeek: между технологическим прорывом и геополитическим противостоянием 0:30

Обсуждение DeepSeek разделило технологическое сообщество на два полярных лагеря. Оптимисты утверждают, что появление этой открытой модели кардинально меняет экономику искусственного интеллекта и открывает «золотой век» для разработчиков приложений. С другой стороны, критики выражают серьезные опасения по поводу национальной безопасности, заявляя, что это знаменует усиление влияния Китая и сопряжено с рисками утечки конфиденциальных данных.

Как отмечает приглашенный эксперт, в феномене DeepSeek можно выделить три ключевых аспекта: модель распространяется по открытой лицензии, обладает продвинутыми возможностями рассуждения (reasoning) и создана в Китае. Тот факт, что разработчики смогли доказать эффективность новых ИИ-методологий в открытом доступе, безусловно, является позитивным сигналом для мировой индустрии. Однако нельзя игнорировать сильное влияние китайского правительства на внутренний технологический сектор. Чтобы определить реальную глубину этого влияния и оценить устойчивость модели, команда исследователей провела комплексный анализ безопасности и процедуру «ред-тиминга» (red teaming), проверяя систему на устойчивость к различным типам состязательных атак вроде промпт-инъекций и джейлбрейков.

🛡️ Двухуровневая защита: политическая цензура против базовой безопасности 2:43

Анализ архитектуры безопасности DeepSeek показал наличие двух изолированных друг от друга систем контроля речи. Первая и наиболее проработанная система отвечает за блокировку политически чувствительных для КНР тем, таких как статус Тайваня или события на площади Тяньаньмэнь. По словам исследователя, жесткие ограничения здесь очевидны: при запросе на эти темы модель либо выдает стандартный отказ, либо транслирует развернутую официальную позицию Коммунистической партии Китая (КПК) о «стремлении к гармонии». Эксперты фонда a16z сходятся во мнении, что столь агрессивное идеологическое выравнивание выглядит непривычно и вызывающе для западных пользователей.

Однако за пределами политической цензуры общая безопасность модели оказывается на крайне низком уровне. В тестах на взлом (jailbreaking) DeepSeek показал результаты в среднем на 20% хуже, чем коммерческие модели вроде GPT от OpenAI. Качественно уровень защищенности DeepSeek соответствует состоянию GPT-3.5 в начале 2023 года: модель уязвима для самых простых, «учебных» методов инъекций и обхода ограничений, которые западные разработчики давно научились блокировать.

💻 Локальный запуск и скрытые инфраструктурные угрозы 5:21

Проблемы безопасности DeepSeek не ограничиваются самой нейросетью, они затрагивают и ее инфраструктуру. Ссылаясь на отчет ИБ-компании Wiz, эксперт отметил, что серверная ИТ-инфраструктура, на которой обучалась и запускалась модель, изначально имела серьезные бреши в защите. Безопасность явно не входила в число приоритетов китайских разработчиков, что делает любые надстройки над DeepSeek уязвимыми для инъекций кода.

Многие пользователи полагают, что использование открытой версии модели под лицензией MIT и ее локальный запуск в собственном контуре безопасности избавляют от цензуры, однако тесты исследователей опровергают это мнение. Политическая цензура «зашита» в веса самой модели, поэтому даже при запуске на американских серверах или локальных компьютерах пользователь все равно столкнется с жесткими ограничениями. Единственное отличие оригинальной китайской облачной версии заключается в наличии дополнительного клиентского шлюза безопасности, который фильтрует уже сгенерированный результат на выходе. Тем не менее, локальный запуск имеет весомый плюс для бизнеса: конфиденциальные данные гарантированно не отправляются в Китай и не будут использованы для обучения условной DeepSeek v2.

📊 Индекс цензуры: неожиданные результаты сравнения китайских и западных ИИ-моделей 7:42

В ходе специализированного бенчмарка исследователи установили, что DeepSeek жестко цензурирует около 85% тем из тестового набора, связанного с китайской политикой. Гораздо более интригующим вопросом, по мнению спикера, остаются «скрытые неизвестные»: потенциальное наличие бэкдоров (backdoors) в коде модели или текстовых триггеров, которые могут позволить третьим лицам удаленно отключать защитные барьеры и похищать контекст данных предприятия.

После анализа китайской модели эксперты провели аналогичные тесты на чувствительные политические темы среди ведущих американских ИИ-систем, и результаты оказались неожиданными. Выяснилось, что многие американские модели также значительно ограничены в свободе слова. Ключевая разница заключается в форме подачи: если DeepSeek читает пользователю лекции в духе пропаганды КПК, то модели вроде GPT лаконично отвечают «Извините, я не могу ответить на этот вопрос».

Согласно результатам бенчмарка, уровень явных отказов при обсуждении спорных китайских тем распределился следующим образом:

Собеседники отметили иронию ситуации: пока западные комментаторы критикуют китайские технологии за жесткую цензуру, американские ИИ-лаборатории внедряют схожие по масштабам ограничения в собственных продуктах.

🏢 Руководство для Enterprise-сегмента: стоит ли внедрять DeepSeek прямо сейчас? 12:31

Для крупных компаний и технологических стартапов из Кремниевой долины, желающих протестировать DeepSeek, эксперт сформулировал ряд рекомендаций. Первое и базовое требование — категорический отказ от использования облачной инфраструктуры, размещенной в Китае; вместо этого модель следует разворачивать локально или через доверенных американских провайдеров.

Однако лучшей стратегией для серьезного бизнеса на данный момент, по мнению эксперта, является выживание. Спикер прогнозирует, что уже в течение нескольких недель западное open-source сообщество воспроизведет технологию обучения с подкреплением (reinforcement learning), использованную в DeepSeek, и выпустит аналогичные по качеству рассуждений модели, но от проверенных и прозрачных разработчиков. Внедрять DeepSeek в качестве постоянного инструмента ("daily driver") сейчас нецелесообразно: тесты показывают, что модель работает медленно, избыточно многословна и периодически без причины вставляет в ответы китайские иероглифы.

Если компания все же принимает решение развернуть DeepSeek, эксперт настоятельно рекомендует использовать ее исключительно на внутренних, бэкенд-задачах, полностью исключив сценарии, обращенные к конечным пользователям (end-user facing). Ввиду критической уязвимости перед простейшими джейлбрейками, обеспечение безопасности внешнего интерфейса на базе этой модели потребует от ИТ-команды несоразмерных усилий по ручной доработке и хардэнингу инфраструктуры.

💬 Цитаты

«В плане джейлбрейка DeepSeek работает примерно на 20% хуже, чем GPT на наших бенчмарках.»

Приглашенный эксперт 04:28

«Уровень цензуры у Claude от Anthropic фактически находится на одном уровне с DeepSeek.»

Приглашенный эксперт 11:10

«Если бы мне пришлось внедрять DeepSeek, я бы сосредоточился на сценариях, не связанных с конечными пользователями.»

Приглашенный эксперт 14:59
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Джейлбрейк (Jailbreak)
Метод обхода встроенных ограничений безопасности ИИ-модели с помощью специально сформулированных запросов.
Ред-тиминг (Red Teaming)
Имитация хакерских атак на систему для выявления уязвимостей до того, как ими воспользуются злоумышленники.
Промпт-инъекция (Prompt Injection)
Внедрение вредоносных инструкций в запрос к ИИ, заставляющее модель игнорировать исходные правила разработчиков.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepSeek a16z кибербезопасность ИИ джейлбрейк