Поло Чоу: «Безопасность ИИ ломается внезапно и катастрофически»

В рамках научного семинара Stanford CS547 HCI профессор Университета Джорджии (Georgia Tech) Поло Чоу представил передовые визуальные и алгоритмические инструменты для создания ответственного искусственного интеллекта. Исследовательская группа Polo Club of Data Science активно работает на стыке ИИ и человеческого интерфейса, стремясь сделать сложные «черные ящики» современных моделей прозрачными, безопасными и интерпретируемыми. В докладе подробно разбираются ключевые проекты лаборатории в области безопасности больших языковых моделей (LLM), генерации изображений, трехмерного рендеринга и ИИ-образования.

🛡️ Безопасность LLM и феномен «бассейна безопасности» 4:13

Современный бизнес активно использует предобученные большие языковые модели, адаптируя их под свои задачи с помощью тонкой настройки (fine-tuning) на собственных данных. Однако этот процесс таит в себе скрытые угрозы для выстроенных разработчиками защитных барьеров (guardrails), обеспечивающих выравнивание (alignment) модели с человеческими ценностями.

Исследовательская группа Polo Club провела эксперимент по модификации внутренних параметров популярных моделей, включая Llama 3, Mistral и Vicuna. В ходе случайного возмущения параметров ученые обнаружили пугающую закономерность, которую они назвали «бассейном безопасности» (safety basin):

При небольших изменениях параметров защитные барьеры продолжают стабильно удерживать модель в безопасной зоне.
При достижении определенного порога защита ломается мгновенно, непредсказуемо и катастрофически.
После преодоления этого порога модель начинает генерировать крайне оскорбительный и опасный контент.

По словам Поло Чоу, такое поведение критически отличается от изменения функциональных способностей модели. На примере бенчмарка MMLU (тесты по истории США, внешней политике и абстрактной алгебре) исследователи показали, что общая точность ответов при модификации параметров падает постепенно и линейно, в то время как безопасность обрушается лавинообразно.

Ситуация усугубляется тем, что на практике компании редко обладают абсолютно чистыми датасетами. По мнению докладчика, стандартный подход к тонкой настройке (static safety shaping), при котором сомнительные обучающие примеры либо полностью включаются в выборку, либо полностью удаляются, неэффективен. Даже незначительное количество вредоносных данных (false negatives), просочившихся через фильтры (например, от 3% до 18%), способно полностью разрушить безопасность модели.

Для решения этой проблемы команда Поло Чоу разработала метод динамического формирования безопасности под названием Shape It Up, представленный на конференции NeurIPS 2024. Вместо удаления всего текста алгоритм разделяет обучающий пример на сегменты и динамически перевзвешивает потери (loss reweighting) на основе безопасности каждого конкретного участка.

Профессор привел пример запроса на написание скрипта для поиска уязвимостей в базе данных:

Безопасный вводный сегмент: модель вежливо отказывается помогать в хакерской атаке.
Вредоносный центральный сегмент: модель все же выводит пример опасного Python-кода.
Безопасный финальный сегмент: модель напоминает об этических нормах.

Метод Shape It Up успешно изолирует опасный центральный сегмент, минимизируя его влияние на веса нейросети, что позволяет сохранить высокий уровень безопасности без ущерба для когнитивных способностей ИИ.

📊 Интерпретируемость ИИ: поиск скрытых взаимосвязей 17:06

Для понимания того, как визуальные методы могут помочь ИИ-безопасности, команда Polo Club подготовила масштабный академический обзор «Interpretation meets safety», опубликованный на EMNLP и охвативший 76 научных работ. В ходе систематизации исследований ученые обнаружили серьезный пробел: в мировой практике практически отсутствовали инструменты, способные связать конкретный небезопасный ответ LLM с конкретной точкой в терабайтных обучающих датасетах.

Чтобы закрыть эту брешь, был создан интерактивный инструмент LLM Attributor. С его помощью исследователь может выделить сомнительные токены в ответе модели и запустить алгоритм обратной атрибуции. Поло Чоу продемонстрировал работу системы на примере фейковой теории заговора о лесных пожарах на Гавайях в 2023 году, где утверждалось, что катастрофа вызвана «оружием направленной энергии». Интерфейс LLM Attributor мгновенно вывел на экран конкретные посты из социальной сети X (бывший Twitter), которые послужили первоисточником для генерации этой дезинформации. Профессор считает, что подобные инструменты критически важны для крупных корпораций, так как позволяют точечно удалять вредоносные данные из обучающих выборок.

Параллельно совместно с компанией Apple был разработан визуализатор эмбеддингов WizMap (представлен на ACL 2023). Этот инструмент позволяет отображать миллионы текстовых векторов непосредственно в веб-браузере на обычном ноутбуке без использования серверных мощностей. Пользователь может масштабировать карту как в Google Maps, группировать абстракты научных статей по темам, искать скрытые кластеры (например, публикации о языке вражды) и отслеживать эволюцию трендов во времени. Впоследствии инженеры Apple развили эту технологию в проект Embedding Atlas, способный интерактивно обрабатывать десятки миллионов точек прямо на устройстве.

🔍 ConceptAttention: что на самом деле скрыто в картинках? 25:03

Когда речь заходит о мультимодальных моделях, возникает фундаментальный вопрос: какие именно концепты формируются внутри сгенерированного изображения? Пользователь может попросить ИИ нарисовать солдата, но модель способна самостоятельно добавить на фон оружие, кровь или разрушения, о которых в промпте не было ни слова.

Для глубокого анализа скрытого содержимого аспирант лаборатории создал алгоритм ConceptAttention, получивший статус устного доклада (oral paper) на ICML 2025. Этот метод строит высококачественные тепловые карты внимания (saliency maps) для диффузионных трансформеров (Diffusion Transformers, DiT).

Главные преимущества ConceptAttention перед аналогами:

Отсутствие дополнительного обучения: метод работает «из коробки» (zero-shot) на любой предобученной DiT-модели.
Поиск скрытых концептов: алгоритм успешно находит и подсвечивает объекты, которые отсутствовали в текстовом запросе пользователя.
Низкая вычислительная стоимость: тепловые карты генерируются параллельно с процессом итеративного улучшения изображения.

В качестве примера был продемонстрирован промпт «собака у дерева». Модель самостоятельно дорисовала на картинке траву и мяч. ConceptAttention безошибочно выделил зоны «собака», «дерево», «трава», «небо» и «мяч». Технический секрет метода кроется в отказе от анализа стандартных матриц перекрестного внимания (cross-attention). Вместо этого исследователи извлекают вектор $V$ на выходе механизма самовнимания мультимодального трансформера после каждой итерации и вычисляют его скалярное произведение с целевым концептом, который искусственно подмешивается в текстовое пространство, не влияя на саму генерацию.

🚗 Уязвимости трехмерного рендеринга в 3D Gaussian Splatting 37:16

Особое внимание в докладе было уделено уязвимостям технологии 3D Gaussian Splatting (3DGS), которая сегодня активно вытесняет полигональные сетки в задачах создания цифровых аватаров, робототехники и беспилотной навигации. 3DGS формирует фотореалистичную иллюзию трехмерного пространства за счет склеивания миллионов цветных эллипсоидов (Гауссиан) с размытыми краями, полученных на основе набора обычных 2D-фотографий.

Поскольку пользователи часто скачивают готовые 3D-объекты из открытых интернет-репозиториев, возникает риск внедрения бэкдоров злоумышленниками. Аспирант лаборатории (который по совместительству является действующим пилотом авиакомпамии FedEx) исследовал эту проблему и доказал возможность проведения атак, зависящих от ракурса обзора (view-dependent manipulation).

В ходе демонстрационного видео были показаны три сгенерированных автомобиля (серый, желтый и красный). Сбоку и спереди они выглядят абсолютно нормально. Однако при изменении ракурса происходят аномалии:

Если посмотреть на желтую машину сзади, на ней материализуется четкий дорожный знак «Stop».
Если взглянуть на автомобили сверху (с ракурса летящего дрона), они полностью исчезают, сливаясь с текстурой серого бетонного покрытия.

Подобные визуальные закладки способны полностью дезориентировать алгоритмы компьютерного зрения беспилотных автомобилей или военных дронов. По мнению Поло Чоу, чтобы построить эффективную защиту против таких иллюзий, исследователи обязаны сначала научиться филигранно атаковать эти системы.

🎓 Демократизация ИИ-образования через интерактивные инструменты 43:32

Профессор Чоу глубоко убежден, что прогресс в области безопасного ИИ невозможен без качественного и массового образования. В рамках этой миссии Polo Club создал целую экосистему веб-визуализаторов: CNN Explainer, Diffusion Explainer, GAN Lab (совместно с Google) и новейший Transformer Explainer, принятый на конференцию CHI 2026. Суммарно этими инструментами воспользовались более 1 миллиона человек по всему миру, а их репозитории собрали около 19 000 звезд на GitHub.

Transformer Explainer работает прямо в браузере без установки библиотек и использования GPU. Он позволяет пользователю ввести любой текст и в реальном времени увидеть весь путь токенов через слои эмбеддингов, матрицы внимания и математические вычисления.

Уникальной фишкой интерфейса является живая регулировка гиперпараметра температуры (Temperature). По словам профессора, обыватели часто называют этот параметр «уровнем креативности» ИИ, однако инструмент наглядно демонстрирует его истинную математическую суть: температура сглаживает или делает более острой кривую распределения вероятностей для следующего токена. Низкая температура делает ответы ИИ жестко детерминированными, а высокая — размывает вероятности, позволяя модели выбирать случайные и неожиданные слова.

Для автоматизации создания подобных интерактивных учебников команда Поло Чоу развивает библиотеку ManimML. Она позволяет разработчикам описывать архитектуру нейросетей на привычном PyTorch-подобном синтаксисе и автоматически генерировать плавные обучающие анимации, что должно существенно ускорить появление новых образовательных инструментов.