Профессор Трамер: «Водяные знаки не защитят от злоупотреблений ИИ»

Machine Learning Street Talk 31,4 тыс. 14 мин 3 мин 12.07.2025
Главное

Исследователи искусственного интеллекта Янник Кильхер и профессор Флориан Трамер в ходе дискуссии проанализировали уязвимости современных языковых моделей, акцентируя внимание на рисках «отравления» данных, небезопасности промпт-инъекций и неэффективности водяных знаков. Эксперты пришли к выводу, что стремительный рост популярности инструментов вроде ChatGPT перевел вопросы безопасности ИИ из области теоретических гипотез в плоскость реальных, критически значимых угроз, требующих переосмысления подходов к защите систем.

🕵️ Уязвимости моделей и утечки данных 0:00

Одной из самых неожиданных проблем, с которыми столкнулись исследователи, стала возможность извлечения обучающих данных из моделей путем специфических манипуляций. Профессор Флориан Трамер привел пример, когда запрос к ChatGPT с требованием повторять слово «poem» бесконечно приводил к тому, что модель начинала выдавать фрагменты текстов, которые она «запомнила» в процессе обучения.

По словам Трамера, подобные атаки — это «самая странная вещь», которую он видел в машинном обучении. Хотя OpenAI оперативно «заплатала» этот конкретный вектор атаки, запретив модели выполнять такой запрос, эксперт назвал это лишь «пластырем на зияющей ране».

Основные риски, связанные с утечками:

💉 Эра промпт-инъекций 5:57

Профессор Трамер выразил серьезную обеспокоенность тем, как современные продукты интегрируют ИИ-агентов с широким доступом к действиям (action space) на пользовательских компьютерах. В качестве «худшего примера» он привел функцию «computer use» от Anthropic.

🛡️ Безопасность и «реальный мир» 7:17

Янник Кильхер и Флориан Трамер отметили, что появление массовых инструментов типа ChatGPT кардинально изменило характер исследований в области ИИ-безопасности. Раньше ученым приходилось выдумывать гипотетические сценарии (например, наклеивание стикеров на дорожные знаки для обмана автопилота), теперь же они работают с реальными системами, которыми пользуются миллионы людей.

💧 Проблема водяных знаков 12:38

Флориан Трамер скептически относится к идее водяных знаков как способа идентификации контента, созданного ИИ. Он выделяет две основные причины:

  1. Open Source: Если модель является открытой (open source), пользователь может делать с ней что угодно, и никакие водяные знаки не удержат его от генерации контента.
  2. Отсутствие робастности: Даже для закрытых моделей водяные знаки легко уничтожить. Трамер пояснил, что достаточно перевести текст через Google Translate или перефразировать его, чтобы «водяной знак исчез».

По мнению гостя, водяные знаки могут быть полезны в узких задачах — например, для фильтрации обучающих данных (чтобы модель следующего поколения не училась на текстах предыдущей). Однако для защиты от дипфейков или борьбы с вредоносным контентом на текущем этапе технологий надежного решения не существует.

💬 Цитаты

«Это, я думаю, на сегодняшний день самая странная атака, которую я когда-либо видел на машинное обучение.»

Флориан Трамер 02:01

«99% по существу неотличимо от 0%. Это просто означает, что эти модели выучили своего рода все более сложные корреляции.»

Флориан Трамер 00:40

«Мы собираемся увидеть, по сути, новое десятилетие инъекционных атак.»

Флориан Трамер 06:37
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Промпт-инъекция
Метод атаки на ИИ, при котором злоумышленник внедряет специфические команды, заставляющие модель игнорировать правила безопасности.
Обучающие данные
Массив информации из интернета, на котором модель обучается строить прогнозы.
Водяной знак
Скрытый статистический маркер, внедряемый в контент для подтверждения того, что он был создан конкретной моделью.
Робастность
Устойчивость системы к внешним воздействиям, помехам или попыткам взлома.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект ChatGPT Флориан Трамер промпт-инъекция Machine Learning кибербезопасность