Янник Килчер объяснил математическую связь трансформеров и сетей Хопфилда

В новом разборе от известного AI-исследователя Янника Килчера детально рассматривается прорывная научная работа «Hopfield Networks is All You Need». Автор видео анализирует, как исследователи из Университета Иоганна Кеплера в Линце и Университета Осло смогли объединить классические концепции нейросетей Хопфилда с современной архитектурой трансформеров. Ключевая идея статьи заключается в том, что механизм внимания (attention mechanism) в современных языковых моделях является частным случаем правила обновления в непрерывных сетях Хопфилда.

🧠 Возвращение к истокам: классическая сеть Хопфилда 1:36

Сеть Хопфилда (Hopfield Network) представляет собой одну из старейших концептуальных моделей нейронных сетей. В традиционном понимании её можно представить как полносвязную структуру, где каждый нейрон соединён со всеми остальными. Основная цель такой сети — хранение так называемых «паттернов» (шаблонов), которые в классическом варианте записываются в виде бинарных строк (например, последовательностей нулей и единиц вроде 10100).

Процесс извлечения информации происходит следующим образом: пользователь подает на вход сети частичный или зашумленный паттерн, выполняющий роль поискового запроса (query). Затем активируется внутреннее правило обновления (update rule), которое заставляет нейроны обмениваться сообщениями и корректировать свои значения. Постепенно система минимизирует свою внутреннюю энергию и возвращает исходный сохраненный шаблон, наиболее совместимый с весами сети.

Янник Килчер приводит простую аналогию: первые биты строки можно использовать как ключ базы данных, а оставшиеся — как значение, что позволяет организовывать ассоциативную память. Долгое время считалось, что емкость такой памяти ограничена числом нейронов или связей. Однако, как отмечает ведущий, современные исследования показали, что при правильном правиле обновления бинарные сети Хопфилда способны хранить экспоненциально много паттернов относительно их размерности.

📈 Модернизация алгоритма: непрерывные паттерны и векторы 6:00

Рассматриваемая Янником Килчером научная работа делает важный шаг вперед — она обобщает современные сети Хопфилда с бинарных строк на непрерывные состояния. Теперь паттерны представляют собой не просто наборы нулей и единиц, а последовательности чисел с плавающей запятой, то есть полноценные векторы в высокоразмерном пространстве.

Извлечение данных в такой парадигме меняет свой смысл: если раньше мы восстанавливали половину бинарной строки, то теперь поисковый запрос задает приблизительное направление вектора. Сеть же должна вернуть сохраненный вектор с наибольшим скалярным произведением. Удивительный теоретический вывод авторов статьи, как подчеркивает Янник Килчер, заключается в том, что экспоненциальная емкость хранилища полностью сохраняется и для непрерывных векторов. Это означает, что сеть способна безошибочно различать и извлекать колоссальное количество векторов, значительно превышающее размерность самого пространства.

В основе этого математического чуда лежит новая функция энергии, специально сформулированная для непрерывных состояний и запросов. Внутреннее правило обновления сети Хопфилда спроектировано таким образом, чтобы итеративно минимизировать эту функцию, пока система не придет к устойчивому фиксированному состоянию.

🔗 Великое объединение: эквивалентность механизму Attention 13:30

Главное открытие рецензируемой статьи заключается в том, что если переписать математические формулы непрерывной сети Хопфилда, заменив температурный коэффициент softmax ($\beta$) на $1/\sqrt{d}$, вектор запроса на матрицу Query, а состояния сети на матрицу Key, то алгоритм становится полностью идентичен механизму внимания (attention mechanism) в трансформерах. Таким образом, популярный механизм глубокого обучения можно официально признать частным случаем сети Хопфилда.

Янник Килчер подробно разбирает эту концепцию на классическом примере предложения «My cat is very pretty» («Моя кошка очень милая»). В стандартном трансформере каждый токен генерирует три вектора: Query (запрос информации), Key (описание себя) и Value (содержимое). Токен «cat», будучи существительным, формирует запрос, направленный на поиск описывающих его прилагательных. В то же время токен «pretty» выставляет наружу ключ, заявляющий: «я прилагательное». Из-за высокого скалярного произведения между запросом кошки и ключом милоты происходит маршрутизация информации через функцию softmax.

В контексте теории Хопфилда ключи трансформера — это сохраненные в памяти паттерны. По мнению автора видео, механизм внимания выполняет ровно один шаг правила обновления для извлечения нужного шаблона из этой памяти.

🔄 Повторяющиеся обновления и загадка метастабильности 20:10

Если классический трансформер делает лишь один шаг вычисления внимания, то полноценная сеть Хопфилда подразумевает многократное, итеративное применение правила обновления. Янник Килчер объясняет, что произойдет, если мы возьмем распределение весов после первого шага и используем полученный взвешенный средний вектор в качестве нового запроса. При повторном вычислении скалярного произведения доминирующий паттерн начнет притягивать распределение softmax еще сильнее.

Если повторить этот процесс несколько раз, распределение станет максимально острым, полностью сфокусировавшись на одном конкретном ключе. По мнению Килчера, это позволяет реализовать «жесткую» маршрутизацию данных и идеальное извлечение одиночного шаблона. Однако такой сценарий возможен только тогда, когда паттерны хорошо изолированы друг от друга.

Если же сферы притяжения шаблонов пересекаются или находятся слишком близко, итеративный алгоритм не сможет выбрать какой-то один вариант. Вместо этого система сойдется к так называемому метастабильному состоянию (meta-stable state) — среднему значению нескольких похожих паттернов. Янник Килчер отмечает, что метастабильность фактически выполняет роль неявной кластеризации в латентном пространстве, группируя схожие типы информации.

📊 Пять математических теорем и их практическое значение 26:43

Математический фундамент работы подкреплен массивным 70-страничным приложением с доказательствами. Ключевые выводы из них Янник Килчер структурирует в виде пяти основных теорем:

Теорема 1 и Теорема 2 строго доказывают глобальную сходимость предложенного алгоритма. Они постулируют, что при многократном применении правила обновления функция энергии гарантированно стабилизируется, а сами итерации сходятся к фиксированной точке.
Теорема 3 математически подтверждает колоссальную емкость ассоциативной памяти непрерывных сетей. Число паттернов, которые могут быть надежно сохранены и извлечены с минимальной вероятностью ошибки, растет экспоненциально в зависимости от размерности векторного пространства ($d$).
Теорема 4 описывает беспрецедентную скорость работы алгоритма. Если шаблоны в пространстве хорошо разделены (что измеряется константой сепарации $\Delta_i$), то правило обновления сходится к фиксированной точке экспоненциально быстро, фактически завершаясь всего за один шаг. Сам Янник Килчер выражает некоторый скепсис по поводу категоричного утверждения «сходится за один шаг», напоминая, что реальная скорость в коде зависит от квадратичных констант длины последовательности ($n$), однако экспоненциальное затухание ошибки сглаживает этот фактор.
Теорема 5 устанавливает жесткие верхние границы для ошибки извлечения памяти, подтверждая, что расстояние между исходным сохраненным вектором и финальной точкой сходимости уменьшается экспоненциально с ростом сепарации паттернов.

Для удобства инженеров авторы подготовили готовый PyTorch-модуль. Его можно легко интегрировать в существующие архитектуры вместо стандартных блоков LSTM, слоев пулинга или классического внимания.

🔬 Эксперименты с BERT: анатомия слоев языковой модели 48:17

Чтобы проверить, в каком режиме работают реальные трансформеры — извлечения одиночных паттернов или метастабильного усреднения — исследователи провели оригинальный эксперимент с предобученной моделью BERT. Они ввели метрику $k$, которая показывает, сколько именно токенов из распределения softmax необходимо суммировать, чтобы покрыть 90% всей массы распределения.

Если $k=1$, значит, голова внимания работает как классическая сеть Хопфилда, выдергивая один четкий образ. Если $k$ стремится к общей длине последовательности ($n$), то происходит тривиальное равномерное усреднение информации, полезное, например, при базовой оценке тональности текста. Анализ показал четкое распределение ролей по слоям модели:

Нижние слои (препроцессинг): характеризуются высокими значениями $k$. Головы внимания преимущественно занимаются равномерным сбором и усреднением фонового контекста.
Средние слои (условный центр «мышления»): здесь значения $k$ резко падают до единицы. Модель ищет и извлекает узкоспецифичные, точечные лингвистические взаимосвязи.
Верхние слои (агрегация): показатели $k$ снова возрастают, возвращая систему в метастабильные состояния для финального обобщения данных перед генерацией ответа.

В ходе обучения авторы зафиксировали яркие «фазовые переходы». В средних слоях параметр $k$ на определенном этапе тренировки резко падает, сигнализируя о том, что голова внимания внезапно «поняла» свою задачу и начала жестко специализироваться на конкретных паттернах. Замена «усредняющих» голов в нижних слоях на простое математическое среднее практически не ухудшила перплексию модели, что подтверждает избыточность стандартного внимания в этих зонах.

🧬 Применение в иммунологии: классификация биомедицинских данных 1:02:33

Практический потенциал новых непрерывных сетей Хопфилда был продемонстрирован в сопутствующем исследовании, посвященном классификации иммунного репертуара человека. Задача является классическим примером обучения на множествах (multi-instance learning), где для каждого пациента доступен огромный массив из десятков тысяч рецепторов иммунных клеток, но имеется всего одна общая метка — болен человек или защищен от конкретной болезни. Медикам неизвестно, какая именно комбинация или подпоследовательность рецепторов отвечает за иммунитет.

Разработанная исследователями система сначала обрабатывает внутренние последовательности с помощью одномерных сверток (1D Convolutions), а затем применяет новый слой внимания Хопфилда с обучаемыми запросами. К удивлению Килчера, этот подход продемонстрировал превосходные результаты (state-of-the-art), доказав свою способность эффективно маршрутизировать информацию даже в условиях гигантского дефицита размеченных данных. В заключение Янник Килчер отмечает, что данное исследование открывает лишь первый пласт возможностей для глубокого понимания трансформеров, и призывает ИТ-сообщество экспериментировать с кодом проекта.