Почему безопасность ИИ невозможна: взгляд Николаса Карлини

«Состязательные примеры — это не баги, а реальные статистические признаки данных», — утверждает Николас Карлини, развенчивая иллюзию защищенности современных нейросетей. В мире, где атакующий всегда ходит вторым, попытки «разучить» модель оказываются лишь косметическим ремонтом, а единственным надежным путем к безопасности становится эшелонированная оборона и десятилетия жестких испытаний, подобных тем, что прошли криптографические стандарты.

🛡️ Архитектура состязательного разума: почему атака всегда впереди 0:12

Николас Карлини (Nicholas Carlini), исследователь безопасности ИИ в Google DeepMind, обладает репутацией человека, способного взломать практически любую защиту нейросетей. Его продуктивность кажется аномальной: только за 2024 год он стал соавтором более 20 научных работ . В сообществе кибербезопасности шутят, что Карлини опубликовал больше успешных атак на системы машинного обучения, чем весь остальный мир вместе взятый. Сам Николас уточняет: это утверждение близко к истине, если ограничиться областью защиты классификаторов изображений, где он годами оттачивал интуицию .

Его успех не связан с использованием магических алгоритмов. Скорее, это результат глубокого понимания фундаментальной асимметрии между атакующим и защитником. В мире ИИ безопасность — это не состояние, а процесс, в котором тот, кто наносит удар, обладает структурным преимуществом.

Фундаментальная асимметрия: преимущество второго хода 12:59

Главный постулат Николаса Карлини заключается в том, что атакующему всегда проще, чем защитнику. Эта асимметрия строится на двух столпах. Во-первых, защитник обязан закрыть абсолютно все уязвимости, в то время как атакующему достаточно найти лишь одну лазейку . Во-вторых, и это критически важно для динамики развития ИИ, — атакующий всегда «ходит вторым» .

Защитник вынужден сначала предложить схему безопасности, зафиксировать её и опубликовать. Только после этого атакующий приступает к анализу. «Атакующий обладает информационным преимуществом: он может подождать, пока область знаний продвинется вперед, изучить новые методы и применить их к защите, которая уже не может быть обновлена» .

Это создает ситуацию, когда даже самые амбициозные попытки обезопасить модели разбиваются о реальность. Например, если защита эффективна в 70% случаев, для исследователя это может выглядеть как успех. Но для Карлини это означает обратное: «Для меня как для атакующего точность защиты в 70% означает, что я попробую взломать систему четыре раза, и один из них, скорее всего, сработает» . В безопасности 70% успеха — это почти всегда полный провал.

Ранее в разговоре они кратко касались темы отравления данных, и Карлини отмечает, что это одна из редких областей, где роли могут поменяться: атакующий «ходит первым», оставляя вредоносные данные в интернете в надежде, что ИИ-лаборатория их скачает . Однако в большинстве сценариев, будь то обход фильтров или джейлбрейк, преимущество остается на стороне состязательного разума.

Простота функций потерь как стратегия взлома 15:23

Когда речь заходит о технической реализации атак, Николас Карлини придерживается принципа «бритвы Оккама». Большинство его атак сводятся к градиентному спуску, где цель — максимизировать определенную функцию потерь . И здесь кроется важный урок для инженеров: простейшая функция потерь почти всегда оказывается самой эффективной.

Математически сложные и «чистые» формулы часто выглядят привлекательно в научных статьях, но на практике их крайне трудно отлаживать. «Тот факт, что простые функции потерь легко дебажить, означает, что вы можете пройти 90% пути к цели без лишних усилий» . Взлом нейросети — это не столько поиск сложной формулы, сколько качественная оптимизация и выбор правильного вектора атаки .

В качестве примера Карлини приводит алгоритм PGD (Projected Gradient Descent). Когда он только начинал заниматься состязательными примерами, он пытался использовать сложные методы оптимизации. Однако позже исследователи доказали, что обычное ограничение изменений в небольшом «шаре» вокруг исходного пикселя (например, изменение только трех младших битов) дает 99% результата при десятикратном упрощении процесса . В практической безопасности достижение последних 2% успеха редко стоит затраченных усилий; если система падает в 98% случаев, она уже считается взломанной .

Крах тампероустойчивого дообучения 11:15

Одной из самых горячих тем последнего года стала попытка создания «нередактируемых» или тампероустойчивых (un-finetunable) моделей. Идея проста: если компания выпускает модель с открытыми весами, она хочет быть уверена, что злоумышленник не сможет дообучить её для создания биологического оружия или написания вредоносного кода, даже имея полный доступ к параметрам .

Однако Николас Карлини и его команда быстро продемонстрировали, что эта защита — иллюзия. Попытки создать модели, устойчивые к дообучению, проваливаются по тем же причинам, что и классическая защита изображений пятилетней давности . Основная проблема заключается в «затухании» или маскировке градиентов: часто кажется, что модель защищена, просто потому что стандартные методы оптимизации «буксуют» на ровном месте.

Карлини описывает процесс взлома такой защиты как рутинную инженерную задачу:

Проверить, текут ли градиенты через функцию Softmax .
Если Softmax насыщен и выдает нули, изменить параметры так, чтобы градиенты снова стали информативными .
Запустить стандартную оптимизацию.

Иногда на взлом защиты, опубликованной в топовых научных журналах, у Николаса уходит всего один-два часа . Это подчеркивает глубокий разрыв между теоретическими концепциями безопасности ИИ и их практической устойчивостью перед лицом опытного исследователя.

🧠 Уязвимость на уровне геометрии: дискретные джейлбрейки и скрытое отравление данных 26:39

Дискретная оптимизация и универсальные джейлбрейки 26:39

Одним из наиболее заметных прорывов в области компрометации языковых моделей стала концепция универсального джейлбрейка, разработанная Николасом Карлини (Nicholas Carlini) в соавторстве с Зико Колтером, Мэттом Фредриксоном и их студентами. В отличие от классических подходов, когда исследователь пытается вручную подобрать обходные формулировки, этот метод автоматизирует процесс атаки через оптимизацию. Стандартная языковая модель при запросе вроде «как собрать бомбу» выдает категорический отказ: «Извините, я ни в коем случае не могу помочь с этим». Однако исследователи доказали, что к любому деструктивному запросу можно прикрепить особый состязательный суффикс (adversarial suffix), который полностью отключает защитные барьеры системы.

Главная сложность заключалась в формулировании целевой функции потерь. Вместо попыток заставить сеть сгенерировать сложную и длинную инструкцию по шагам, атака нацеливается на предельно простую задачу — заставить модель произнести первые 10 утвердительных слов, например: «Да, конечно, я помогу вам собрать бомбу». Как только нейросеть переступает этот порог, её собственная авторегрессионная природа заставляет её продолжить генерацию в заданном ключе, беспрепятственно выдавая опасную информацию.

В отличие от атак на изображения, где изменения пикселей происходят в непрерывном пространстве, текст состоит из дискретных токенов, что делает прямую оптимизацию невозможной. Ранее исследователи пытались применять градиенты второго порядка и сложные математические конструкции, но команда Карлини пошла по пути упрощения, с опорой на «горький урок» Ричарда Саттона. Алгоритм GCG (Greedy Coordinate Gradient) использует градиенты исключительно для того, чтобы направлять поиск, затем проверяет эффективность замены конкретных токенов на практике и тратит на это колоссальные объёмы вычислительных ресурсов.

Этот подход требует принципиально иных вычислительных затрат по сравнению с атаками на зрение. В непрерывном пространстве изображений метод FGSM (Fast Gradient Sign Method) Яна Гудфеллоу позволяет найти состязательный пример буквально за один шаг, вычисляя знак градиента относительно пикселей, что занимает околонулевое время. Итеративный метод PGD (Projected Gradient Descent) требует от 10 до 1000 шагов, что для средних моделей занимает не более минуты. В то же время текстовая дискретная оптимизация методом GCG для генерации одной устойчивой атаки требует выполнения тысячи мини-батч шагов с большими пакетами данных, что занимает от одного до нескольких часов. Тем не менее, это всё равно на несколько порядков быстрее, чем обучение самой модели.

Отравление данных в языковых моделях 35:58

Проблема безопасности обостряется на этапе подготовки обучающих выборок. Исторически концепция отравления данных (data poisoning) начиналась с примитивного внедрения неверно размеченных объектов. В классической работе Батисты 2012 года, получившей престижную награду Test of Time на ICML, было показано, что добавление мизерного количества ложных меток в выборку MNIST мгновенно ломает классификатор изображений. Позже, когда датасеты стали тщательно курироваться специалистами, исследователям пришлось маскировать атаки под «чистые метки» (clean-label poisoning). В таких сложных сценариях, как атака Polytope, злоумышленники оптимизировали изображения так, чтобы они выглядели корректно для человека, но в скрытом пространстве эмбеддингов буквально окружали целевую точку объектами противоположного класса, смещая границы принятия решений. Это требовало сложных алгоритмов и контроля над ощутимым объёмом выборки — около 1%.

Современный подход к сбору данных из интернета без жёсткой модерации вернул атакам былую простоту. В 2021 году Николас Карлини (Nicholas Carlini) с коллегами продемонстрировал, что для взлома self-supervised классификаторов вроде CLIP достаточно просто добавить пару сотен картинок с изменёнными метками прямо из сети, без всякой изощрённой оптимизации.

С языковыми моделями ситуация оказывается ещё тоньше и опаснее. Базовые LLM никто не использует в чистом виде — их обязательно дорабатывают с помощью инструктивного тюнинга (SFT) и обучения с подкреплением на основе отзывов людей (RLHF). Совместное исследование Карлини со студентами из Университета Карнеги — Меллона и Высшей технической школы Цюриха показало, что вредоносные триггеры можно внедрить так, чтобы они успешно переживали оптимизационные процессы RLHF.

На текущий момент для успешного отравления LLM злоумышленнику достаточно контролировать всего около 0.1% обучающей выборки. На первый взгляд это немного, но в масштабах современных моделей 0.1% от триллиона токенов составляет миллиард токенов, что делает атаку трудноосуществимой для рядового хакера. Однако Николас Карлини (Nicholas Carlini) убеждён, что эта цифра искусственно завышена из-за несовершенства текущих методов. Модели способны запоминать огромные массивы фактов; если бы для внедрения одного убеждения требовалась тысячная доля всего интернета, модель физически не могла бы знать больше тысячи вещей. Это указывает на существование гораздо более эффективных, пока ещё не открытых алгоритмов отравления с ультранизким порогом присутствия в данных.

Ловушки геометрии: интуиция в пространствах высокой размерности 43:50

Ранее в разговоре собеседники касались темы тампероустойчивого дообучения, которое кажется надёжным щитом, но на практике легко взламывается. Причина уязвимости большинства современных систем защиты ИИ кроется в фундаментальном непонимании геометрии многомерных пространств. Подавляющее большинство защитных механизмов создаётся авторами на основе трёхмерной интуиции, которая полностью отказывает, когда модель оперирует тысячами измерений.

Главное эмпирическое правило состязательного анализа гласит: в пространствах высокой размерности абсолютно всё находится пугающе близко к разделяющей гиперплоскости. Человеческий мозг, привыкший к 3D-объектам, предполагает, что точки внутри класса распределены глубоко в его границах и далеки от чужих зон. В реальности же, если взять любую точку в тысячемерном пространстве, она может быть удалена от ложного класса в 999 направлениях, но обязательно найдётся хотя бы один ортогональный вектор, вдоль которого расстояние до границы ошибочного решения окажется ничтожно малым.

Из-за огромного количества степеней свободы случайный поиск состязательного примера кажется неэффективным — в многомерном пространстве почти все случайные векторы перпендикулярны друг другу, и случайное блуждание создаёт иллюзию безопасности. Однако как только атакующий использует направленный поиск (например, по градиенту), он мгновенно находит эту скрытую лазейку.

Эта геометрическая аномалия создаёт колоссальную асимметрию. Защитнику нейросети необходимо идеально понимать структуру тысячемерного пространства, чтобы закрыть абсолютно все углы атаки. Атакующему же достаточно иметь размытую, приблизительную интуицию. Если одна стратегия взлома не срабатывает, исследователь просто пробует другую. По опыту Карлини, для полной компрометации новой и кажущейся неприступной защиты обычно требуется перебрать не более 5–10 концептуальных стратегий, прежде чем обнаружится вектор, заставляющий геометрию модели капитулировать.

🛡️ Реалии ИИ-безопасности: от хрупких защит к неопределенности будущего 50:29

Современный ландшафт защиты нейросетей напоминает гонку вооружений, в которой атакующие и защитники находятся в неравных условиях. Николас Карлини (Nicholas Carlini) из Google DeepMind отмечает, что в кругах исследователей безопасности всё ещё ведутся споры о том, что именно считать «работающей защитой».

Ограничения состязательного обучения 51:09

На данный момент состязательное обучение (adversarial training) остается «золотым стандартом» — по сути, это единственный метод, который дает измеримый результат. Процесс прост: мы генерируем состязательные примеры и дообучаем на них модель, чтобы она научилась их игнорировать. Однако вопрос «работает ли это?» зависит от интерпретации цифр:

Успех в ML-метриках: Достижение 50–70% точности под атакой в области, где раньше было 0%, считается в академической среде выдающимся достижением.
Провал в безопасности: С точки зрения системного инженера, 70% точности — это катастрофа. Если бы антивирус пропускал одну из четырех вредоносных программ, он был бы признан абсолютно бесполезным.

Карлини подчеркивает, что это фундаментальное различие в ожиданиях: в машинном обучении мы привыкли к компромиссам, в то время как безопасность требует надежности, близкой к абсолютной.

Маскировка градиентов: иллюзия защиты 56:44

Многие «инновационные» методы защиты, появляющиеся в литературе, на поверку оказываются лишь «маскировкой градиентов» (gradient masking). Часто авторы таких работ предлагают элегантные теоретические обоснования, которые при ближайшем рассмотрении не имеют отношения к реальному механизму работы защиты.

Пример с «дистилляцией как защитой» стал классическим уроком. Исследователи полагали, что особый процесс обучения учителя и ученика делает последнего устойчивым, но оказалось, что из-за особенностей реализации Softmax-слоя градиенты просто становились численно равными нулю. Атакующему достаточно было сменить точность вычислений (например, на float64), чтобы «непробиваемая» защита мгновенно исчезла.

Сегодня эта практика приняла более осознанный характер: разработчики намеренно делают поверхность потерь «шумной» и труднодоступной, чтобы градиентный спуск не мог найти путь к уязвимости. Однако, как отмечает Карлини, эти сложности часто обходятся использованием более мощных техник, таких как straight-through estimators или просто подбором learning rate, что возвращает модель в состояние, где градиенты снова становятся читаемыми.

Дилемма открытого кода 1:01:45

Вопрос о том, можно ли сохранить открытость весов модели, ограничив при этом её опасные возможности (например, создание биооружия), остается открытым и крайне скептичным с технической точки зрения.

Карлини проводит прямую аналогию: мы не требуем от компилятора языка программирования возможности писать только «добрые» программы. Любой мощный инструмент обладает дуальностью использования. Он ставит под сомнение идею о том, что проблему можно решить, просто закрыв доступ к модели или поместив её за API, так как это скорее административное, чем техническое решение.

Существуют теоретические изыскания, такие как indistinguishability obfuscation, которые могли бы позволить использовать «черный ящик», не заглядывая внутрь, но на данном этапе развития технологий это далеко от реальности. В конечном счете, Карлини призывает основывать дискуссии о регулировании на строгих технических фактах: «Я хочу быть уверен, что любые решения, принимаемые обществом, базируются на том, что технически истинно, а не на заблуждениях о том, что якобы может защитить нас от взлома».

Ранее в разговоре они кратко касались методов извлечения обучающих данных из моделей, однако глубокое обсуждение природы памяти нейросетей выходит за рамки данной главы.

🧩 Глубинные признаки, иллюзия «разучивания» и хрупкость нейросетей 1:15:20

Различие между фактами и знаниями при «разучивании» 1:16:37

Когда речь заходит о безопасности нейросетей, часто звучит заманчивое предложение: давайте просто «сотрём» или заставим модель «забыть» опасную информацию — например, опасные медицинские технологии или инструкции по вирусологии. Однако Николас Карлини наглядно объясняет, почему классические методы «разучивания» (unlearning) не работают так, как от них ожидают разработчики. Ссылаясь на исследование своей коллеги Кэтрин Ли, Карлини подчёркивает фундаментальное различие между удалением поверхностных фактов и глубоким искоренением комплексных знаний.

Исследователям относительно легко точечно изменить конкретный факт в модели. Например, можно успешно переписать веса так, чтобы на прямой вопрос модель отвечала, что Эйфелева башня находится в Риме. При обычном поверхностном тестировании это сработает. Однако стоит подвергнуть веса модели даже незначительному дообучению или состязательной пертурбации, как исходное истинное знание мгновенно возвращается. Поверхностное редактирование фактов не меняет внутреннюю связную структуру сети. Более того, Карлини скептически относится к идее тотального удаления «плохих» концепций. Модель обязана обладать пониманием опасного контекста, чтобы уметь его вовремя отклонять. Если полностью лишить ИИ концепции оружия или смерти, то, получив подробную инструкцию по сборке самодельной бомбы, он послушно её выполнит, просто не понимая деструктивной природы запроса.

Запоминание и извлечение обучающих данных 1:17:54

Идея абсолютной фильтрации обучающего датасета также разбивается о суровую математическую реальность генеративных систем. На первый взгляд, подход кажется безупречным: если модель никогда не видела конкретные конфиденциальные данные в процессе обучения, она физически не сможет их воспроизвести. Карлини опровергает этот тезис на примере номеров социального страхования (SSN) в США. Эти идентификаторы не являются абсолютно случайными наборами цифр — исторически они последовательно присваивались в зависимости от штата, конкретной больницы и даты рождения. Высокоинтеллектуальная модель, зная общие открытые факты о мире и внутреннюю логику распределения номеров, способна с высокой точностью вычислить первые пять цифр SSN конкретного человека, даже если самого этого номера никогда не было в её обучающей выборке.

Ещё более серьёзный вызов для безопасности — феноменальная способность современных больших языковых моделей к обучению в контексте (in-context learning). Представим, что разработчикам удалось полностью вырезать из весов модели все медицинские и биологические знания. Но если сама по себе модель остаётся высокопроизводительной и универсальной, злоумышленнику достаточно загрузить в окно контекста базовый учебник по биологии и попросить решить опасную прикладную задачу — ИИ выдаст верный ответ. Карлини приводит поразительный пример из практики Google DeepMind: флагманская модель Gemini получила в промпт описание и редкую книгу на языке, у которого практически не осталось живых носителей в мире, и на основании только этого контекста смогла безошибочно выполнить сложные школьные упражнения по грамматике. Пытаться искусственно ограничить модель в конкретных предметных областях, сохраняя её общую способность учиться по нескольким примерам (few-shot learning), — это заведомо проигрышная стратегия.

Состязательные примеры как «признаки, а не баги» 1:21:11

В индустрии ИИ-безопасности долгое время существовала иллюзия, что состязательные атаки можно полностью заблокировать с помощью детекторов аномальных латентных активаций. В недавней работе "Obfuscated Activations Bypass Latent Defenses" авторы устроили изощрённую игру в кошки-мышки между атакующим алгоритмом и защитным детектором, которая продолжалась на протяжении 70 поколений. Каждый раз защита училась распознавать аномальные векторы, но атакующий неизменно находил новую лазейку. Карлини объясняет это геометрией многомерных пространств. Как уже подробно обсуждалось во второй главе, интуиция в пространствах высокой размерности часто подводит человека, ведь там практически любые случайные векторы оказываются ортогональными друг другу.

Ещё в 2016–2017 годах Флориан Трамер и Никола Паперно в своей работе об общем пространстве состязательных примеров доказали, что если заблокировать атакующему основное математическое направление для взлома, алгоритм оптимизации легко находит второе ортогональное направление, затем третье, четвёртое — и так до десятков эффективных независимых траекторий подряд. Именно поэтому сжатие, прунинг или квантование моделей не повышают их устойчивость к атакам, ведь они лишь убирают лишние веса, но не устраняют избыточные направления в пространстве активаций.

Глубинную разгадку этой уязвимости предлагает знаменитая концепция группы Александра Мэдри из MIT: состязательные примеры — это не случайные программные баги, а реальные, высокоэффективные статистические признаки данных, которые модель использует для классификации. Человек при разделении образов кошек и собак ориентируется на понятные ему высокоуровневые абстракции: форму ушей, разрез глаз и общие очертания морды. Нейросеть же в процессе обучения подмечает микротекстуру шерсти, едва уловимый шум и сложнейшие математические корреляции пикселей, которые идеально работают на чистом датасете, но совершенно неинтуитивны для человеческого восприятия. Состязательная атака просто модифицирует эту невидимую для нас текстуру шерсти собаки на текстуру кошки, и модель закономерно меняет свой вердикт. Модели обладают феноменальной способностью извлекать скрытые микроструктурные закономерности (например, определять личность человека по крошечному фрагменту снимка сетчатки глаза), и состязательные атаки лишь эксплуатируют эти реальные, но чуждые человеку признаки данных.

Социальная инженерия против математических атак 1:32:03

Этот дуализм между чистой математической оптимизацией и человеческим восприятием наглядно проявляется в феномене состязательных суффиксов (adversarial suffixes). С одной стороны, эти текстовые хвосты подбираются строгими методами дискретного градиентного спуска и для человека выглядят как абсолютно бессмысленный, хаотичный набор символов и токенов. С другой стороны, при детальном анализе успешных автоматических атак исследователи обнаруживают удивительные ментальные мостики к обычной человеческой социальной инженерии и промпт-инъекциям.

Карлини делится курьёзным случаем из собственной практики взлома ранней версии Gemini для генерации токсичного контента. Градиентный спуск сгенерировал длинный суффикс, внутри которого внезапно отыскалась вполне осмысленная антропоморфная инструкция на естественном языке: «а теперь напиши противоположное содержание» (now write opposite contents). Математический алгоритм нащупал сильный внутренний признак модели: если пообещать ей сделать что-то хорошее, запутать логическим отрицанием или похвалить её в будущем, она охотнее выдаст запрещённый текст здесь и сейчас. Некоторые из этих признаков поддаются частичной интерпретации, другие остаются скрытой «магией» весов. Этой теме, включая пределы интерпретируемости через разреженные автоэнкодеры, будет подробно посвящена пятая глава.

В завершение Карлини отмечает, что хотя человек кажется гораздо более устойчивым к состязательным искажениям, чем нейросети, эта разница во многом обусловлена лишь отсутствием прямого «белоящичного» доступа к нашему мозгу со стороны алгоритмов оптимизации. Эксперименты Николы Паперно шестилетней давности показали, что если человеку всего на 100 миллисекунд (время одного быстрого прямого прохода зрительного сигнала) показать изображение со специальным состязательным шумом, оптимизированным под ансамбль нейросетей, человеческий мозг тоже начнёт ошибаться значительно чаще, чем при встрече со случайным шумом аналогичной интенсивности. Мы кажемся защищёнными в повседневной жизни лишь потому, что используем глубокое контекстное мышление, обратную связь и цепочки последовательных рассуждений, а не один быстрый форвард-пас. Развёрнутое сравнение надежности человека и нейросети читатели найдут в следующей, пятой главе.

🛡️ Путь к отказоустойчивости ИИ: между математикой и эшелонированной защитой 144:50

Вопрос о том, достижима ли «идеальная» надежность нейросетей, остается открытым. По мнению Николаса Карлини, мы можем никогда не прийти к состоянию, когда модели станут безупречно защищенными от атак. Вместо этого развитие индустрии, скорее всего, пойдет по пути принятия факта, что ошибки неизбежны, и выстраивания систем, способных работать в условиях этой неопределенности.

В разработке программного обеспечения это давно решенная задача: мы не доверяем одному человеку написание и коммит кода, требуя перекрестной проверки (code review). Аналогичный системный подход — эшелонированная защита (defense in depth) — критически важен для ИИ-агентов. Поскольку защитить сами веса модели от взлома крайне сложно, безопасность должна строиться на внешних барьерах. Например, если агент пытается выполнить небезопасное действие (скажем, ввести данные в поле пароля), внешняя система контроля может принудительно заблокировать запрос, независимо от того, насколько «убедительно» модель аргументирует свою легитимность. Это ограничивает функциональность, но создает надежный контур безопасности, даже если «внутренний мозг» модели скомпрометирован.

🔍 Пределы интерпретируемости и новые гипотезы 133:21

Интерпретируемость нейросетей через разреженные автоэнкодеры (sparse autoencoders) — перспективное, но все еще ограниченное направление. На текущий момент существующие методы позволяют объяснить лишь малую долю признаков (features), активируемых в модели. Это создает слепую зону: огромные пространства в активациях нейросети остаются «черным ящиком», через который злоумышленники могут проводить свои атаки, оставаясь незамеченными для текущих инструментов мониторинга.

Существует интересная гипотеза, отсылающая к биологическим системам: если система становится слишком прозрачной и интерпретируемой, она неизбежно становится уязвимой для «паразитов». Этот парадокс заставляет исследователей задуматься: возможно, нам стоит искать защитные механизмы, которые мы не обязательно сможем «объяснить» или превратить в красивую историю? Николас Карлини проводит аналогию с симметричной криптографией: алгоритм AES не имеет формального доказательства «абсолютной безопасности», но стал невероятно надежным благодаря десятилетиям итеративного тестирования и отражения атак. Возможно, аналогичный подход — эволюционное давление и эмпирическое усложнение защиты без поиска «священного Грааля» математического доказательства — станет ключом к устойчивости нейросетей.

🧠 Человек против машины: рекурсия и контекст 136:23

Сравнение надежности человека и нейросети часто упирается в разницу механизмов принятия решений. Человек кажется более устойчивым к визуальным атакам и манипуляциям благодаря способности к рекурсивному анализу контекста. Когда мы чувствуем, что «что-то не так», этот сигнал часто является продуктом фоновых рекурсивных процессов в мозгу, которые предшествуют сознательному рассуждению. Модели же зачастую лишены этого «времени на раздумья» и глубинной рекурсии, работая скорее как быстрые эвристические системы.

Впрочем, попытки привить моделям что-то похожее на долгосрочную память — например, через механизмы обновления весов на основе «сюрприза» (surprise-weighted update) — выглядят многообещающе. Идея проста: если данные кажутся модели неожиданными, она должна уделять им больше внимания при обновлении памяти. Хотя это далеко от полноценной человеческой мудрости, позволяющей «не наступать на одни и те же грабли дважды», это важный шаг к тому, чтобы модель могла учиться на своих ошибках и распознавать паттерны манипуляций.

🤖 Автоматизация состязательных атак с помощью LLM 2:06:51

Николас Карлини (Nicholas Carlini) активно изучает возможности масштабирования поиска уязвимостей, используя языковые модели для автоматизации атак. В экспериментах, где ИИ предлагается находить ошибки в специально подготовленном, «чистом» учебном коде объемом около 20 строк Python, модели демонстрируют многообещающие результаты — они способны эффективно подбирать градиенты и находить слабые места.

Однако ситуация кардинально меняется, если предоставить модели реальный программный код из открытых репозиториев. Исследователь отмечает, что в таких условиях модели терпят неудачу. Основная сложность заключается не в поиске самой ошибки — «все ошибки очевидны в ретроспективе», — а в способности отсеять избыточный шум и выделить критически важный фрагмент из сотен или тысяч строк кода, скрывающих логику системы. Николас Карлини (Nicholas Carlini) подчеркивает, что текущая проблема тестирования моделей состоит в том, что мы часто проверяем их на задачах, которые кажутся сложными для людей, но не отражают реальных трудностей разработки. Хотя модели становятся все более компетентными в академических тестах, им пока не хватает «агентных» навыков для навигации в реальных, не адаптированных под исследования репозиториях.

При этом Карлини отмечает позитивный сдвиг в сообществе: еще пять лет назад специалистов по таким атакам было крайне мало, сегодня же их число значительно выросло. Хотя серьезная работа по атакам на LLM ведется относительно недавно, он выражает уверенность в том, что через пару лет профессиональный уровень сообщества существенно повысится благодаря практике и дисциплине. Ранее в разговоре обсуждались проблемы защиты ИИ через эшелонирование, и сейчас эксперты сходятся на том, что подобные исследования жизненно необходимы: если специалисты не будут доказывать уязвимость систем, это сделают злоумышленники, которые не станут публиковать отчеты о своих успехах.

🔒 Аналогии между защитой ИИ и криптографией 2:17:07

Николас Карлини (Nicholas Carlini) проводит параллель между текущим состоянием безопасности ИИ и историей криптографии, полагая, что защита ИИ может пойти по пути симметричной криптографии. В этой модели надежность системы доказывается десятилетиями безуспешных попыток взлома всем мировым сообществом.

Примером такого эшелонированного подхода служит текущая практика борьбы с состязательными примерами (adversarial examples). Несмотря на то что многие из поставленных задач — например, возмущение пикселей в рамках $L_\infty$-нормы — могут показаться оторванными от реальных угроз, они служат четко определенными полигонами для обучения. Успех в этих узких областях позволяет делать шаги к созданию более надежных систем в будущем.

В контексте дебатов об открытости моделей (Open Source), Карлини вспоминает «крипто-войны» 90-х годов, когда правительство США пыталось ограничить экспорт криптографических алгоритмов, классифицируя их как оружие. Несмотря на опасения, что сильное шифрование попадет в руки террористов, итоговое решение о всеобщей доступности инструментов защиты было признано объективно верным: оно позволило создать современную экономику с удаленными банковскими счетами и защищенную связь для диссидентов.

Николас Карлини (Nicholas Carlini) считает, что вопрос концентрации власти — когда только несколько компаний обладают «ключами» к мощным моделям — является более насущным и опасным, чем гипотетическая возможность использования этих моделей в злых целях. Пока технологии не достигли уровня «суперчеловеческих», их распространение через Open Source остается важным фактором предотвращения монополизации возможностей, которыми могут воспользоваться немногие. В конечном счете, решение этой дилеммы требует тесного сотрудничества между исследователями безопасности, которые понимают технические лимиты моделей, и экспертами в области социальной политики, способными оценить долгосрочные последствия для общества.

🌐 Итоги и взгляд в будущее: наука важнее идеологии 2:30:52

В завершающей части дискуссии Николас Карлини (Nicholas Carlini) подводит итог своим размышлениям о безопасности ИИ, подчеркивая, что текущий момент — это период высокой неопределенности. По его мнению, следующие два года станут критически важными, так как именно они должны продемонстрировать реальные возможности и, что не менее важно, фундаментальные ограничения современных технологий. Если системы действительно эффективны, прогресс станет очевидным очень быстро, в противном случае мы неизбежно столкнемся с «потолком» возможностей.

Карлини занимает осторожную позицию, призывая избегать самоуверенности, будь то чрезмерный оптимизм или пессимизм относительно будущего ИИ. Он подчеркивает: обе точки зрения имеют право на существование, если стороны готовы допустить, что оппонент также может оказаться прав.

📉 Риск принятия решений в условиях невежества 2:32:10

Главная тревога исследователя связана не столько с самими технологиями, сколько с качеством принятия политических и стратегических решений. Николас Карлини выражает глубокое беспокойство тем, что люди, облеченные властью, могут делать выводы, не обладая глубоким пониманием того, как устроен мир ИИ на самом деле.

Существует риск, что решения будут приниматься независимо от объективных фактов.
Опасность заключается в том, что идеологические установки («то, во что хочется верить») могут перевесить реальные данные.

Для Карлини критически важно, чтобы общество и регуляторы опирались на «лучшие доступные факты». Он признает: даже при наличии точных данных мы можем совершить ошибку, но это будет «лучшее из того, на что можно надеяться». Хуже всего, когда знания доступны, но игнорируются ради идеологической повестки. Ранее в разговоре они касались рисков, связанных с концентрацией власти в руках корпораций при попытках избыточного регулирования, что исторически напоминает неудачи правительств в 90-х годах при попытках запрета экспорта шифрования.

🔬 Призыв к честной науке и сотрудничеству 2:32:10

Подводя черту, Карлини еще раз подчеркивает: область безопасности ИИ — это пространство, где нет места идеологии, здесь важно «смотреть фактам прямо в лицо». Он призывает к проведению качественных научных исследований, которые позволят видеть реальное состояние дел в индустрии.

Взаимодействие между исследователями, такими как Карлини, и лицами, принимающими решения, должно стать постоянным процессом. Он выражает готовность продолжать свою работу по «взлому» систем, чтобы через обнаружение уязвимостей находить истину и помогать политикам делать осознанный выбор, опираясь на эмпирические данные, а не на домыслы.