Как алгоритм ROME переписывает память нейросетей: локализация и редактирование фактов в GPT

В новом исследовании «Locating and Editing Factual Associations in GPT» группа ученых из MIT и других институтов представила метод ROME, позволяющий точечно редактировать знания внутри больших языковых моделей. Ведущий Янник Кильхер обсудил с авторами работы, Дэвидом Бау и Кевином Менгом, как им удалось локализовать конкретные факты в нейронных слоях и изменить «убеждения» модели — например, заставить её поверить, что Эйфелева башня находится в Риме, не нарушая при этом общую связность речи.

🧠 Механистическая интерпретируемость: где живут идеи? 0:00

Исследование находится на стыке фундаментальной науки и практической инженерии . С одной стороны, ученых интересует вопрос, как именно обучаемые вычисления внутри сети превращаются в смыслы. С другой — существует острая необходимость исправлять устаревшую или неверную информацию в огромных моделях, которые слишком дорого переобучать с нуля .

Дэвид Бау отмечает, что это возвращает нас к классическому вопросу нейронауки о «нейроне бабушки» — гипотезе, согласно которой за конкретное понятие может отвечать одна клетка мозга . В контексте ИИ это направление называют «механистической интерпретируемостью» . Ученые пытаются понять, распределены ли знания по всей сети или их можно локализовать в конкретных слоях или нейронах .

В отличие от многих предыдущих работ, группа ROME использовала «каузальное зондирование» (causal probing) . По словам Дэвида Бау, это позволяет не просто наблюдать корреляции, а вносить изменения в работу сети и смотреть, как она реагирует, что дает гораздо более четкую картину механизмов её работы .

🔍 Каузальное трассирование: поиск «метки факта» 6:52

Для локализации фактов авторы разработали метод каузального трассирования (causal tracing). Суть эксперимента заключается в следующем:

Чистый проход: Модели подается корректная фраза (например, «Space Needle находится в центре...»), и записываются все активации .
Испорченный проход: Входные данные (субъект «Space Needle») повреждаются шумом. Теперь модель выдает случайный ответ, так как не понимает, о чем идет речь .
Восстановление: Исследователи поочередно копируют скрытые состояния из «чистого» прохода в «испорченный» для каждого слоя и каждого токена .

Результаты показали удивительную локализацию. Выяснилось, что существуют две критические точки:

Ранний участок (Early site): Находится на последнем токене субъекта («Needle») в средних слоях MLP (многослойных перцептронов) .
Поздний участок (Late site): Находится на последнем токене фразы непосредственно перед предсказанием следующего слова, в механизмах внимания .

Кевин Менг подчеркивает: удивительно, что модель «вспоминает» факт о местоположении объекта сразу после прочтения его названия, хотя она еще не знает, какой вопрос ей зададут в конце предложения .

🏗️ MLP как хранилище «ключ-значение» 17:02

Основная гипотеза авторов заключается в том, что слои MLP в трансформерах работают как ассоциативная память . Кевин Менг объясняет это через структуру матриц в MLP: первая матрица («fan-out») создает пространство ключей, а вторая («fan-in») проецирует их обратно в пространство значений .

По мнению исследователей:

MLP-блоки хранят фактические ассоциации (например, «Space Needle» связан с «Сиэтлом») .
Механизмы внимания выступают в роли «маршрутизаторов», которые извлекают нужную информацию из этого хранилища в нужный момент для формирования ответа .

Чтобы доказать это, ученые провели эксперимент с «разрезанием» связей. Если заблокировать передачу сигналов от MLP-блоков в средних слоях, каузальный эффект исчезает, тогда как блокировка внимания в тех же слоях влияет на результат значительно меньше .

🛠️ Метод ROME: редактирование весов за один шаг 29:20

ROME (Rank-One Model Editing) — это алгоритм, который позволяет обновить одну конкретную ассоциацию в модели, используя формулу ранга 1 (rank-one update) .

Процесс редактирования состоит из двух этапов:

Поиск векторов: Сначала определяется вектор-ключ ($k$), соответствующий субъекту, и вектор-значение ($v$), который заставит модель выдать новый ответ (например, «Париж»). Вектор $v$ подбирается путем оптимизации, аналогичной поиску состязательных примеров .
Обновление матрицы: Веса MLP-слоя изменяются так, чтобы при получении ключа $k$ модель выдавала новое значение $v$, при этом минимально искажая другие знания, уже хранящиеся в этой матрице .

Дэвид Бау отмечает, что они использовали математический аппарат линейных ассоциативных памятей, известный еще с 1970-х годов . Это позволило получить аналитическое решение для обновления весов, которое работает за секунды .

🧪 Оценка качества: Generalization и Specificity 35:59

Авторы подчеркивают, что просто заставить модель говорить «Париж» — недостаточно. Качественное редактирование должно отвечать двум критериям:

Обобщение (Generalization): Если мы сказали модели, что «Space Needle» в Париже, она должна давать этот ответ даже при перефразировании вопроса .
Специфичность (Specificity): Изменение не должно затрагивать другие объекты. Перенос «Space Needle» в Париж не должен повлечь за собой перенос туда же Статуи Свободы или рынка Пайк-Плейс .

Для проверки этих свойств был создан новый датасет Counterfact, базирующийся на данных Wikidata . В отличие от старых тестов (типа ZSRE), Counterfact фокусируется на «трудных» случаях — например, когда нужно изменить город на другой реально существующий город, что требует от модели четкого разделения понятий .

⚠️ Проблема «дрейфа сущности» и симметрии 48:48

В процессе исследований обнаружились интересные побочные эффекты. Один из них — «дрейф сущности» (essence drift) . По словам Кевина Менга, если обновление весов слишком агрессивное, модель может потерять понимание того, чем является объект. Например, при попытке сделать игру Mario Kart продуктом Microsoft, модель может начать считать, что это не гоночная игра, а офисное приложение .

Другой важный вывод касается асимметрии знаний в трансформерах. Дэвид Бау указывает на «отрицательный сюрприз»: если научить модель тому, что «Билл Гейтс основал Microsoft», она не обязательно поймет, что «Основателем Microsoft был Билл Гейтс» . С точки зрения модели это две разные ассоциации, хранящиеся в разных местах, так как они имеют разных субъектов в начале предложения .

🚀 Будущее и призыв к сообществу 1:02:49

Несмотря на успех с GPT-2 XL, авторы признают, что вставка тысяч фактов в одну и ту же матрицу может не масштабироваться. В будущих работах они планируют изучить распределение знаний по множеству слоев .

В финале беседы Дэвид Бау выразил недоумение по поводу того, почему всё ИИ-сообщество еще не занимается «вскрытием» моделей . По его мнению, нейросети содержат в себе сложнейшие структуры, сравнимые по объему с кодовой базой гигантских корпораций, и их изучение — одна из самых захватывающих задач современности .