Профессор Трамер: «Водяные знаки не защитят от злоупотреблений ИИ»

Исследователи искусственного интеллекта Янник Кильхер и профессор Флориан Трамер в ходе дискуссии проанализировали уязвимости современных языковых моделей, акцентируя внимание на рисках «отравления» данных, небезопасности промпт-инъекций и неэффективности водяных знаков. Эксперты пришли к выводу, что стремительный рост популярности инструментов вроде ChatGPT перевел вопросы безопасности ИИ из области теоретических гипотез в плоскость реальных, критически значимых угроз, требующих переосмысления подходов к защите систем.

🕵️ Уязвимости моделей и утечки данных 0:00

Одной из самых неожиданных проблем, с которыми столкнулись исследователи, стала возможность извлечения обучающих данных из моделей путем специфических манипуляций. Профессор Флориан Трамер привел пример, когда запрос к ChatGPT с требованием повторять слово «poem» бесконечно приводил к тому, что модель начинала выдавать фрагменты текстов, которые она «запомнила» в процессе обучения.

По словам Трамера, подобные атаки — это «самая странная вещь», которую он видел в машинном обучении. Хотя OpenAI оперативно «заплатала» этот конкретный вектор атаки, запретив модели выполнять такой запрос, эксперт назвал это лишь «пластырем на зияющей ране».

Основные риски, связанные с утечками:

Конфиденциальность: Если модель обучается на медицинских или юридических данных, утечка проприетарной информации становится серьезным ударом по безопасности.
Непредсказуемость: Поскольку системы проектируются как универсальные, крайне сложно предусмотреть все «странные» способы, которыми пользователи могут попытаться эксплуатировать модель.
Синтетические данные: Многие компании стремятся использовать синтетические данные для обучения, однако эксперты предупреждают, что нет никаких гарантий, что этот процесс не приведет к утечке исходной информации, на которой строилась модель.

💉 Эра промпт-инъекций 5:57

Профессор Трамер выразил серьезную обеспокоенность тем, как современные продукты интегрируют ИИ-агентов с широким доступом к действиям (action space) на пользовательских компьютерах. В качестве «худшего примера» он привел функцию «computer use» от Anthropic.

Риски: По мнению Трамера, предоставление ИИ контроля над компьютером при наличии известных уязвимостей к промпт-инъекциям является крайне рискованным шагом.
Масштаб проблемы: Трамер прогнозирует, что нас ждет «новое десятилетие атак типа промпт-инъекций», аналогичное десятилетию SQL-инъекций или уязвимостей переполнения буфера в классической кибербезопасности.
Давление конкуренции: Исследователи полагают, что компании будут продолжать игнорировать риски ради «крутых» функций, пока не появятся более строгие стандарты разработки.

🛡️ Безопасность и «реальный мир» 7:17

Янник Кильхер и Флориан Трамер отметили, что появление массовых инструментов типа ChatGPT кардинально изменило характер исследований в области ИИ-безопасности. Раньше ученым приходилось выдумывать гипотетические сценарии (например, наклеивание стикеров на дорожные знаки для обмана автопилота), теперь же они работают с реальными системами, которыми пользуются миллионы людей.

Смена парадигмы: Исследователи теперь вынуждены уделять гораздо больше внимания этике, процедурам раскрытия уязвимостей (disclosure) и тому, как именно они сообщают о найденных «багах».
Необходимость новых подходов: Трамер уверен, что одного «масштабирования» (увеличения объема данных и вычислительных мощностей) недостаточно для решения проблем надежности. Даже если модель предсказывает верный токен в 99,9% случаев, этого никогда не будет достаточно для полной безопасности — необходимо развитие способности системы к «причинно-следственному пониманию» мира.

💧 Проблема водяных знаков 12:38

Флориан Трамер скептически относится к идее водяных знаков как способа идентификации контента, созданного ИИ. Он выделяет две основные причины:

Open Source: Если модель является открытой (open source), пользователь может делать с ней что угодно, и никакие водяные знаки не удержат его от генерации контента.
Отсутствие робастности: Даже для закрытых моделей водяные знаки легко уничтожить. Трамер пояснил, что достаточно перевести текст через Google Translate или перефразировать его, чтобы «водяной знак исчез».

По мнению гостя, водяные знаки могут быть полезны в узких задачах — например, для фильтрации обучающих данных (чтобы модель следующего поколения не училась на текстах предыдущей). Однако для защиты от дипфейков или борьбы с вредоносным контентом на текущем этапе технологий надежного решения не существует.