Аман Бава и Кэмерон Вовски представили математическую теорию управления промптами для LLM

В свежем выпуске подкаста Machine Learning Street Talk исследователи Аман Бава (Caltech) и Кэмерон Вовски (University of Toronto) обсуждают свою резонансную научную работу «What's the magic word? A control theory of prompting large language models». Учёные предлагают радикально новый взгляд на безопасность и архитектуру нейросетей, рассматривая большие языковые модели не как статистические распределения текста, а как классические динамические системы. Их выводы переворачивают привычные представления о надежности ИИ и показывают, насколько уязвимы современные LLM перед лицом целенаправленного манипулирования дискретными токенами.

⚙️ От паровых двигателей к нейросетям: кибернетика на службе ИИ 8:03

В конце XIX века физик Джеймс Клерк Максвелл математически формализовал концепцию обратной связи (feedback control). До этого инженеры настраивали центробежные регуляторы (flyball governors) для паровых двигателей вручную, интуитивно. Максвелл доказал, что если непрерывно направлять выходные данные системы обратно в контроллер и корректировать ошибку в каждый момент времени, управлять сложнейшими механизмами становится намного проще.

По мнению Амана Бавы и Кэмерона Вовски, современная индустрия искусственного интеллекта находится в аналогичной «дореволюционной» точке: инженеры занимаются кустарным «промпт-инжинирингом», подбирая слова вслепую. Переход к строгой теории управления позволит создавать предсказуемые и надежные ИИ-системы.

Как подчеркивают исследователи, базовая сложность управления LLM упирается в фундаментальные математические отличия от классических физических систем:

Дискретность пространства состояний: вместо работы с непрерывными вещественными числами (координаты, скорость), ИИ оперирует дискретными токенами.
Динамическое расширение пространства: с каждым сгенерированным или введенным токеном пространство возможных состояний расширяется на один шаг.
Экспоненциальный рост: поскольку размер типичного словаря современной модели составляет от 50 000 до 100 000 токенов, с каждым новым шагом пространство возможных предложений растет по экспоненте.

🎮 Игра в Роджера Федерера и скрытая уязвимость токенов 16:03

Чтобы наглядно продемонстрировать проблему достижимости (reachability) в LLM, авторы создали интерактивную игру под названием «Роджер Федерер». Суть задачи проста: модели подается фиксированный контекст «Roger Federer is the », а пользователь должен подобрать максимально короткий префикс (промпт), который заставит ИИ выдать целевое слово «greatest».

Эксперимент проводился на базе относительно небольшой модели GPT-2. Выяснилось, что задача чрезвычайно сложна для человека: модель постоянно сбивалась на генерацию символов подчеркивания, и успешно подобрать промпт вручную смогли всего четыре человека, включая самих авторов и их коллегу Майкла Зелингера.

Интересным инсайтом работы стало сравнение дискретных промптов и так называемого «мягкого промптинга» (soft prompting). Оказывается, если атаковать не сами слова, а напрямую изменять векторы эмбеддингов, то даже при минимальной корректировке можно свести функцию потерь (cross-entropy loss) к нулю для абсолютно любого целевого токена.

Таким образом, реальная сложность управления заключается не в отсутствии путей для манипуляции, а в колоссальной трудности поиска нужной комбинации в дискретном экспоненциальном пространстве токенов. При этом само пространство эмбеддингов является глубоко невыпуклым (non-convex): по наблюдениям исследователей, если взять среднее значение между векторами двух близких по смыслу слов, результатом станет не промежуточное понятие, а бессмысленный хаос.

📊 Три эксперимента: доказательство тотальной управляемости 39:14

В теоретической части исследования авторы математически описали LLM как динамическую систему и декомпозировали работу одного слоя механизма self-attention с помощью матричной алгебры. Им удалось доказать существование геометрического «пузыря достижимости» вокруг стандартного ответа модели, размер которого масштабируется в зависимости от количества контролируемых пользователем токенов.

Чтобы подтвердить теорию практикой, ученые провели серию эмпирических тестов, используя случайные текстовые последовательности из Wikipedia длиной от 8 до 32 токенов. Результаты выявили высокую управляемость моделей:

Генерация истинного продолжения: в 97% случаев исследователям удавалось заставить модель выдать правильный следующий токен из оригинальной статьи, задействовав оптимизированный промпт длиной менее 10 токенов.
Манипуляция наиболее вероятными вариантами: для топ-75 токенов, которые сама модель считала наиболее релевантными, авторы в 89% случаев смогли сделать любой из них абсолютно приоритетным (argmax распределения вероятностей) с помощью короткого префикса.
Абсолютный хаос (случайные токены): ученые попробовали заставить модель выдать совершенно случайный токен из словаря — от цифр до кириллицы и китайских иероглифов. Даже в этом сценарии в 46% случаев короткий промпт (до 10 токенов) успешно выводил случайный символ на первое место в выдаче.

По мнению авторов, это доказывает, что популярная концепция тонкой настройки с подкреплением (RLHF) вовсе не «отсекает» опасные траектории поведения модели, как принято считать. Пространство достижимости остается колоссальным, и злоумышленники всегда могут найти «магические слова» (adversarial prompts) — своего рода хакерские заклинания или гипноз, мгновенно переводящие нейросеть в латентный хаотический режим. Защитить модель исключительно на уровне весов практически невозможно, поэтому авторы видят перспективу в создании внешних программных файрволов, которые будут фильтровать промпты на предмет их естественности для человеческого языка.

🧠 Биомиметика и децентрализованный коллективный разум 46:45

Исследования ИИ часто заходят в тупик из-за монолитной архитектуры современных систем, обучаемых методом обратного распространения ошибки (backpropagation). Аман Бава, опираясь на свой бэкграунд в теоретической нейробиологии, напоминает, что человеческий мозг устроен иначе. Неокортекс относительно плоский и гомогенный, а его участки способны пластично менять свои функции (например, зрительная кора перестраивается под другие задачи при потере зрения). Биологическая эволюция доказала существование единого набора простых локальных правил, который при масштабировании рождает сложнейшее системное поведение.

Более того, Аман критикует фундаментальное допущение архитектуры фон Неймана и классической машины Тьюринга, ссылаясь на мнение профессора из MIT: разделение считывающей головки (процессора) и ленты (памяти) изначально было ошибкой. В живом мозге материя, отвечающая за вычисления, и материя, хранящая память — это одно и то же.

На стыке этих идей рождается масштабное видение авторов: создание полностью децентрализованного ИИ (проект под рабочим названием "The Language Game"). Вместо гигантских дата-центров, требующих колоссальных энергетических затрат и оптоволоконных интерконнектов от Nvidia, будущее ИИ может лежать в объединении миллионов слабых локальных моделей, запущенных на компьютерах обычных пользователей. Они могли бы общаться между собой на низкоскоростных каналах связи с помощью обычного текста (токенов). По гипотезе Бавы, эмерджентным свойством такой сети могла бы стать общая сверхмощная модель уровня GPT-7, принадлежащая всему человечеству, а не одной корпорации.

Кэмерон Вовски дополняет этот взгляд исследованиями в области морфогенеза и биологических клеточных автоматов (Neural Cellular Automata), ссылаясь на совместные работы с Майклом Левиным и Александром Мордвинцевым. В своей магистерской диссертации Кэмерон изучает, как белковые сети (в частности, кадгерины) управляют сцеплением и миграцией клеток в эмбрионе. По его мнению, процессы эмбриогенеза и развития живых организмов дают идеальную подсказку для алгоритмов глубокого структурного обучения (structure learning), ведь человеческий мозг формируется именно так.

🚀 Общество погони за AGI и парадоксы академического признания 1:03:41

Для реализации столь смелых концепций исследователи основали междисциплинарное студенческое объединение — «Общество погони за AGI» (Society for the Pursuit of AGI), действующее на базе Торонтского университета и Caltech. Как объясняет Кэмерон, если университетские лаборатории вынуждены играть безопасно ради гарантированных публикаций, а корпорации — ради быстрой прибыли, то их общество создано для безумных ставок и долгосрочных прорывов (hail marys).

Авторы убеждены, что главный барьер на пути к сильному искусственному интеллекту сегодня — это не нехватка вычислительных мощностей или несовершенство кодинга, а концептуальный тупик. Для преодоления кризиса идей они планируют привлекать к дискуссиям специалистов из поведенческой экономики, политологии и даже искусства.

Рассказывая о тернистом пути инновационных идей в науке, авторы поделились драматичной историей: их фундаментальная статья о теории управления была отклонена престижной конференцией ICLR. Причиной стал нелепый технический сбой: за 15 минут до дедлайна отправки апелляции (rebuttal) и Аман в Калифорнии, и Кэмерон в Торонто столкнулись с ошибкой тайм-аута сервера. Система приняла их ответ с опозданием, и рецензенты просто отказались его читать. Впрочем, молодые ученые не унывают. Аман с иронией замечает, что в том же цикле рецензирования ICLR отверг знаменитую статью о революционной архитектуре Mamba, что приносит определенное моральное утешение.