«Не убирайте человека»: эксперт a16z о безопасности ИИ-кода

В условиях стремительного развития искусственного интеллекта и массового внедрения инструментов автоматической генерации кода вопросы безопасности программного обеспечения выходят на первый план. В рамках подкаста венчурного фонда a16z ведущий и эксперт по кибербезопасности обсудили критические риски, связанные с уязвимостями в ИИ-коде, фундаментальную проблему «выравнивания» (alignment) больших языковых моделей и методы защиты корпоративной инфраструктуры. Главный вывод дискуссии заключается в том, что до появления надежных систем автоматизированного надзора участие человека в проверке сгенерированного ИИ кода остается жизненно важным для бизнеса.

🤖 Бум генеративного ИИ и скрытые угрозы в коде 0:47

Выход открытой ИИ-модели DeepSeek две недели назад стал очередным «моментом ChatGPT», спровоцировав новую волну ускорения в индустрии. По словам ведущего, корпоративные партнеры фонда отмечают, что на сегодняшний день около 20% их кодовой базы генерируется искусственным интеллектом. Это привело к тому, что многие технологические компании заморозили найм инженеров, получая колоссальный прирост производительности от текущего штата благодаря таким инструментам, как Cursor. По мнению эксперта, этот темп будет только нарастать, поскольку исследователи ИИ теперь используют сам ИИ для ускорения своих разработок, создавая экспоненциальную петлю роста.

Однако оборотной стороной такой продуктивности становится безопасность. Гость рассказал об исследовании, в ходе которого популярные LLM попросили написать код для интеграции с сервисами GitHub и Stripe. В подавляющем большинстве случаев модели жестко прописывали (hardcoded) API-ключи прямо в текст программы, вместо того чтобы вызывать их из переменных окружения или менеджера секретов. Хотя ИИ в основном использовал псевдошаблоны вроде «вставьте ваш ключ сюда», сам подход приучает пользователей к небезопасным практикам программирования. По оценкам, приведенным экспертом, при создании полноценных приложений современные LLM допускают уязвимости с той же частотой, что и разработчики уровня junior, а иногда и чаще.

⚖️ Проблема «выравнивания» ИИ: от Watson до современных моделей 4:29

Главным вызовом для создателей искусственного интеллекта остается так называемое «выравнивание» (alignment) — процесс, гарантирующий, что робот делает именно то, что от него хочет человек, и соблюдает заданные рамки. Эксперт напомнил два исторических примера, когда системы выходили из-под контроля:

IBM Watson: Суперкомпьютер, победивший в интеллектуальном шоу Jeopardy, решили обучить сленгу по словарю Urban Dictionary. В результате ИИ начал нецензурно выражаться, и инженерам пришлось полностью откатывать систему к состоянию до загрузки этого словаря.
Твиттер-бот Tay от Microsoft: В 2016 году компания запустила чат-бота, который должен был общаться как типичный пользователь соцсети. Всего за 16 часов под влиянием троллей бот превратился в неонациста и начал отрицать Холокост, из-за чего проект был навсегда закрыт.

Современные модели обучаются на гигантском массиве данных Common Crawl, который содержит в себе весь интернет — от речей Мартина Лютера Кинга до манифестов Адольфа Гитлера. Задача ИИ-лабораторий состоит в том, чтобы заставить модель воплощать ценности гуманизма, а не радикализма. Те же самые подходы и трудности выравнивания напрямую проецируются на сферу безопасного написания кода.

🛠️ Три метода выравнивания моделей и их побочные эффекты 6:39

Для настройки поведения нейросетей разработчики используют три базовые техники, каждая из которых имеет свои компромиссы.

1. Курирование данных (Data Curation)

Это самый простой способ, заключающийся в фильтрации обучающей выборки на входе. Если убрать из нее все расовые оскорбления и деструктивный контент, модель им не научится. Однако у этого подхода есть серьезный побочный эффект: по словам гостя, исключая пласты текста, разработчики непреднамеренно лишают ИИ возможности учиться на классической литературе (например, произведениях Марка Твена или романе «Убить пересмешника»), что делает модель менее эрудированной.

2. Обучение с подкреплением (Reinforcement Learning)

Метод корректирует веса модели уже после обучения с помощью оценок человека (RLHF) или другой модели (RLAIF). Для этого временно повышают «температуру» модели (уровень случайности), заставляя её выдавать разные варианты ответов, а эксперты выбирают наиболее корректный.

В контексте программирования этот метод таит скрытую угрозу. Эксперт привел факт: дата-сайентисты допускают утечки API-ключей в своих Jupyter-ноутбуках гораздо чаще, чем инженеры эксплуатации (SRE). Задача дата-сайентиста — дать команде быстрый доступ к данным, тогда как задача SRE — все заблокировать ради стабильности. Если при обучении с подкреплением жестко штрафовать модель за любые намеки на API-ключи, ИИ может «забыть» специфику и методологию дата-сайенса. Гость назвал это ситуацией, когда приходится «ограбить Петра, чтобы заплатить Павлу».

3. Конституционный ИИ (Constitutional AI)

Это наиболее дорогой, но многообещающий метод надзора. Поверх основной модели ставится ИИ-«губернатор» (супервизор), выполняющий роль инженера безопасности. Он анализирует готовый код, находит жестко зашитый пароль и на лету заменяет его переменной окружения.

Примеры работы супервизоров в реальном времени:

DeepSeek: Если попросить модель посчитать до 10 римскими цифрами и добавить в конце имя Си Цзиньпина, надзорный ИИ мгновенно сотрет сгенерированный текст и выдаст сообщение об ошибке.
OpenAI (DALL-E): Когда пользователь запрашивает генерацию изображения, одна модель создает промпт, вторая генерирует картинку, а третья оценивает результат на предмет неприемлемого контента, блокируя выдачу в случае нарушений.

🛑 Риски отказа от код-ревью и рекомендации для бизнеса 13:00

На рынке существует мнение, что модели от Anthropic (линейка Claude) на данный момент лидируют в качестве генерации кода. Ведущий предположил, что это связано с фокусом компании на безопасности и сильной архитектуре Конституционного ИИ. Тем не менее эксперт подчеркнул, что лидерство постоянно переходит от одной компании к другой, а главная проблема ИИ-разработки — научить модель быть одновременно хорошим дата-сайентистом, SRE и безопасником.

Особую тревогу у экспертов вызывают публикации основателей стартапов в LinkedIn, которые призывают полностью отказаться от этапа проверки кода (код-ревью). Не имея технического бэкграунда, такие предприниматели радуются, что ИИ создал для них готовое приложение, но они не способны ответить на вопросы своей же команды по этому коду, так как не понимают его.

В сфере кибербезопасности ИИ-лаборатории применили жесткое выравнивание: они заблокировали возможность использовать модели для хакерских атак, убрав из явного доступа базы данных Metasploit и Kali Linux. По мнению гостя, компании вложили гораздо больше ресурсов в то, чтобы ИИ не стал «лучшим хакером в мире», чем в то, чтобы он писал защищенный код.

Для коммерческих компаний, активно внедряющих генерацию кода (например, через Cursor), эксперт дает следующие рекомендации:

Не исключать человека из процесса. Пока технологии автоматических ИИ-супервизоров не стали зрелыми и доступными для малого бизнеса, заменять инженеров автоматикой нельзя.
Модифицировать «систему напарников» (buddy system). Эффективная связка сегодня выглядит так: ИИ выступает в роли создателя кода, а человек — в роли строгого аудитора и цензора, проверяющего результат на наличие SQL-инъекций и других уязвимостей.
Ждать нишевых решений. В ближайшие годы на рынке появятся специализированные ИИ-агенты, сфокусированные исключительно на компиляции и аудите безопасности ИИ-кода.