Titans: нейросетевая память, побеждающая ограничения трансформеров

«Сложно поверить, что мы достаточно умны, чтобы переиграть миллионы лет эволюции и создать идеальную архитектуру без прохождения её промежуточных этапов», — утверждает исследователь Али Бехруз. Новая нейросетевая архитектура Titans бросает вызов этому ограничению, заменяя статичные векторы данных динамически обучаемым MLP-модулем, который имитирует человеческие механизмы запоминания и забывания. Такой гибридный подход позволяет удерживать в памяти до 10 миллионов токенов, закладывая основу для появления по-настоящему автономных ИИ-агентов и роботов нового поколения.

🧠 Архитектура Titans: Нейронная долгосрочная память как новое прорывное звено больших языковых моделей 0:15

Проблема «отсутствующего звена» памяти больших языковых моделей 0:15

Современные большие языковые модели (LLM) обладают колоссальными объемами знаний о мире, однако в их архитектуре до сих пор существует критический пробел, который эксперты называют «отсутствующим звеном» (missing middle) в системе памяти. С одной стороны, фундаментальные знания глубоко фиксируются в статических весах модели во время масштабного предобучения. С другой стороны, существует кратковременная рабочая память, реализуемая через механизм внимания (attention) внутри ограниченного контекстного окна. Главная сложность заключается в отсутствии промежуточного, интегрированного и постоянно эволюционирующего слоя долгосрочной памяти, который люди используют для сохранения связности, непрерывности контекста и идентичности во времени.

Без этого звена создание полноценных и долгоживущих ИИ-агентов в реальном мире остается труднодостижимой задачей. На данный момент сбор и поддержание актуального контекста для моделей из разрозненных источников (Slack, электронная почта, базы документов, GitHub) требует огромных усилий и сложной инфраструктурной обвязки. Стоимость создания и тонкой настройки кастомных моделей для крупных предприятий может достигать десятков миллионов долларов. Именно поэтому ключевым фактором, отделяющим индустрию от появления автономных цифровых сотрудников, способных радикально изменить рынок труда, выступает фундаментальный прорыв в области долгосрочной памяти ИИ.

Концепция архитектуры Titans: нейросеть вместо векторов 4:26

Для преодоления ограничений существующих систем Али Бехруз (Ali Behrouz) и его соавторы предложили принципиально новый подход, воплощенный в архитектуре Titans. Традиционные подходы вроде систем RAG (Retrieval-Augmented Generation) хранят данные в явном виде во внешних базах и извлекают их с помощью векторного поиска или граф-систем. В свою очередь, современные рекуррентные архитектуры вроде Mamba и другие state-space модели (SSM) кодируют память в виде статической матрицы чисел, обновляемой при каждом прямом проходе.

Разработчики Titans совершили качественный концептуальный сдвиг: вместо векторов или матриц они интегрировали внутрь модели полноценную нейронную сеть в качестве обособленного модуля памяти, который обучается и обновляется непосредственно во время работы (в runtime) с помощью градиентного спуска. Ранее в разговоре собеседники вскользь касались таких тем, как персистентная и ассоциативная память, а также влияние импульса и удивления на данные, однако именно динамическое обучение нейросети в процессе выполнения (test-time training) качественно выделяет Titans на фоне предшественников. Подобный подход представляет собой важный шаг вперед в проектировании нейросетевой архитектуры.

Вдохновение нейронаукой и эволюцией 9:40

Исследовательский путь автора Titans, Али Бехруза, во многом определил нестандартный взгляд на проблему памяти. В период магистратуры он занимался алгоритмами на графах и методами обнаружения аномалий. В процессе работы он обнаружил глубокие математические и структурные связи между поиском аномалий в графах и нейробиологическими задачами, такими как диагностика и анализ расстройств человеческого мозга.

Это погружение в биологические механизмы сформировало его фундаментальную позицию: процессы обучения и обработки информации у человека невероятно эффективны, так как они оттачивались миллионами лет эволюции. Исследователь убежден, что научное сообщество совершает ошибку, пытаясь превзойти природные алгоритмы за счет прямолинейного масштабирования трансформеров, игнорируя принципы работы мозга. Для достижения реального прогресса и создания сильного ИИ архитектуры обязаны опираться на биологическую эффективность мозга. Начало его аспирантуры в Корнеллском университете совпало с выходом знаковых альтернативных работ в области sequence modeling, таких как S5, RWKV и RetNet, что укрепило его намерение искать новые пути за рамками стандартного Attention.

Гибридные архитектуры: синергия Attention и рекуррентных структур 13:02

В современной индустрии ИИ идут споры: одни ученые стремятся полностью вытеснить механизм внимания рекуррентными решениями, другие же делают ставку на синергию. Али Бехруз однозначно позиционирует себя как сторонник гибридных моделей.

По его мнению, механизм внимания (attention) критически необходим для построения точных и детализированных связей между конкретными токенами в рамках текущего смыслового фрагмента. Однако фундаментальный минус чистого Attention — квадратичный рост требований к вычислительной памяти по мере увеличения длины последовательности, вызванный расчетом взаимодействий каждого токена с каждым. Человеческий мозг имеет конечный физический объем, он не расширяется линейно с каждой новой секундой нашей жизни. Следовательно, искусственным системам необходим компактный, но емкий механизм сжатия информации. Оптимальным решением является гибрид: Attention отвечает за краткосрочную точность локального контекста, а рекуррентно-подобный блок Titans берет на себя функции долгосрочного хранения информации.

Новая парадигма: почему память должна быть полнофункциональной нейросетью 18:31

Чтобы осознать технологический прорыв Titans, авторы сопоставляют его с историей развития рекуррентных моделей. В традиционных RNN поступающие данные проецируются в скрытое пространство, где память представляет собой обычный вектор (hidden state), обновляемый добавлением новых репрезентаций. В линейном внимании память эволюционировала до матрицы значений, но даже современные эффективные линейные RNN, включая Mamba, продолжают использовать векторную память.

Али Бехруз предлагает переосмыслить этот подход на основе биологических реалий: память в мозге — это не изолированная ячейка или фиксированный вектор, а сложная, топологически разветвленная сеть взаимосвязанных нейронов. Внедрение многослойного перцептрона (MLP) в качестве модуля памяти в Titans позволяет информации внутри самого блока взаимодействовать друг с другом, гибко перестраивая внутренние ассоциативные связи. Опираясь на развивающуюся концепцию Test-Time Training (TTT), Titans преодолевает избыточное упрощение прошлых лет, когда гигантские объемы контекста пытались безвозвратно сжать в рамки одного фиксированного числового вектора.

🧠 Архитектура памяти и роль персистентности 46:53

В современных архитектурах LLM, таких как Titans, вопрос организации памяти выходит далеко за рамки простых векторов или матриц, которые ранее служили лишь местом для хранения результатов проекций. Ключевым нововведением здесь является использование персистентной (постоянной) памяти — обучаемых параметров, размещаемых в начале последовательности.

Али Бехруз подчеркивает, что эта концепция продиктована стремлением к созданию более полных архитектур, вдохновленных человеческими моделями когниции. Персистентная память кодирует общие знания о задаче, которые не зависят от конкретных входных данных. Хотя это может показаться лишь вспомогательным элементом, на практике использование таких «независимых от данных» параметров дает стабильное улучшение производительности.

Кроме того, персистентная память решает техническую проблему «зацикливания» внимания. В классических трансформерах механизм внимания часто склонен фокусироваться на начальных токенах последовательности, что может приводить к снижению эффективности модели. Размещение обучаемых параметров в начале очереди позволяет «разгрузить» этот процесс, предотвращая чрезмерную зависимость от первых токенов реального времени и повышая общую стабильность системы. Ранее в разговоре уже упоминались гибридные подходы, где трансформерные механизмы сочетаются с другими методами для компенсации ограничений контекстного окна.

🔄 Механизм ассоциативной памяти 49:12

Одной из фундаментальных особенностей Titans является отказ от статических хранилищ в пользу нейросетевых модулей памяти. Переход к использованию MLP (многослойного перцептрона) в качестве модуля памяти открывает новые исследовательские горизонты, создавая динамизм, качественно отличающийся от простой записи чисел в матрицу.

Центральная идея механизма ассоциативной памяти заключается в возможности извлечения информации через запросы (query) путем минимизации разницы между предсказанием MLP и фактическим значением (value), полученным из механизма внимания. Если рассматривать структуру MLP как произведение весов, где между слоями присутствует нелинейность, можно провести параллель с классическим вниманием:

Комбинация весов $W \times X$ математически схожа с операцией $Q \times K$ (запрос-ключ).
Второй весовой коэффициент по сути выполняет роль матрицы значений (value).

Основное различие между традиционными MLP и механизмом внимания в данном контексте кроется в типе нелинейности. В то время как в MLP обычно используются функции типа ReLU, в стандартном внимании применяется Softmax. Titans предлагают переосмыслить эту связь: по сути, добавление обучаемых параметров к началу последовательности и последующее применение внимания позволяет реализовать те же функции, что и MLP, но в более гибком и интегрированном формате. Это позволяет модели не просто хранить данные, а активно управлять ими, постоянно адаптируя внутренние состояния в зависимости от поступающей информации.

🧠 Архитектура памяти: Ассоциативные модели и механика обучения 52:04

Центральным элементом исследования Titans является концепция нейронной памяти, которая радикально отличается от классических подходов, используемых в современных LLM. В отличие от стандартных методов, где память часто ограничена вектором или матрицей, в Titans память сама по себе представляет собой нейронную архитектуру — полносвязную сеть (MLP). Али Бехруз объясняет, что в данной системе чтение и запись информации трансформируются в процесс, напоминающий прямой проход данных (forward pass) через нейросеть.

Фундаментальное отличие заключается в том, что эта MLP-память проходит процесс обучения градиентным спуском в режиме реального времени. Ранее в разговоре авторы упоминали ограничения классических подходов, таких как Mamba, где обновляются лишь матрицы весов. Здесь же динамически меняется сама структура памяти, обучаясь «на лету».

Механизм ассоциативного поиска и градиентного спуска 57:44

Али Бехруз предлагает рассматривать механизм внимания (attention) как форму ассоциативной памяти, где ключи и значения (keys и values) неразрывно связаны. Главная задача модуля памяти — получив на вход запрос (query), найти максимально релевантную информацию, сопоставив её с накопленными ключами.

В Titans этот процесс моделируется через оптимизацию:

Функция потерь: Система минимизирует разницу между выходом памяти для конкретного входного вектора ключа и значением, которое этот вход получил бы в стандартном механизме внимания.
Аппроксимация: MLP-модуль обучается предсказывать, какие «полезные данные» (payload) соответствуют заданным ключам.
Инференс: При поступлении нового токена его запрос сопоставляется с накопленными ключами через скалярное произведение, позволяя извлечь нужную информацию как комбинацию исторических данных.

Таким образом, если стандартное внимание — это непараметрическое решение задачи сопоставления, то подход Titans привносит в него алгоритмы оптимизации и градиентного спуска с моментом, что, по мнению Бехруза, обеспечивает баланс между эффективностью и способностью «запоминать» контекст.

Сюрприз, импульс и динамика забывания 111:31

Одной из самых инновационных частей системы является то, как именно модель решает, что стоит сохранить, а что — отбросить. Бехруз вводит метрику «сюрприза» (surprise metric), основанную на функции потерь, которая определяет значимость данных.

Однако просто фиксировать «внезапные» события недостаточно, так как контекст часто раскрывается постепенно в серии последующих токенов. Для этого авторы внедрили механизм импульса (momentum):

Моментальный сюрприз: Оценивает степень неожиданности конкретного текущего токена.
Исторический контекст: Использует затухающий импульс, чтобы учитывать важность прошлых токенов, которые могли быть значимыми в контексте текущего повествования.

Эта система позволяет эффективно фильтровать «шум» и фокусироваться на ключевых событиях. Модель имитирует человеческую память: она «забывает» детали, которые теряют актуальность с течением времени, сохраняя при этом общую канву событий, даже если они произошли десятки токенов назад. Этот подход позволяет избежать переполнения памяти и делает её работу более гибкой по сравнению с жесткими окнами внимания.

🧩 Архитектуры интеграции памяти: Context, Gate и Layer 1:29:44

В рамках работы над архитектурой Titans Али Бехруз уделяет особое внимание тому, как именно долгосрочная память (LTM) может быть внедрена в современные LLM. Исследователи выделяют три фундаментальные стратегии интеграции, каждая из которых предлагает свой подход к взаимодействию между кратковременной памятью (реализованной через механизмы внимания) и долгосрочным хранилищем. Примечательно, что наиболее распространенный в литературе подход — «память как слой» — на практике оказался наименее эффективным по сравнению с альтернативными методами, предложенными в исследовании.

🧠 Память как контекст (Memory as Context) 1:33:10

Этот подход предполагает, что долгосрочная память выступает в роли внешнего хранилища, из которого извлекается информация, дополняющая текущий контекст модели. В данной конфигурации данные поступают в систему, проходят через LTM, где извлекается релевантная информация, которая затем передается механизму внимания. Внимание в этом сценарии берет на себя роль «арбитра»: оно решает, что важнее — текущий входной сигнал или исторические данные, извлеченные из памяти. Итоговый сжатый результат, обработанный вниманием, затем возвращается обратно в LTM, обновляя её состояние и сообщая системе, какие фрагменты информации действительно важны для сохранения.

🚪 Память как гейт (Memory as Gate) 1:35:11

В архитектуре «памяти как гейта» (gate) кратковременная и долгосрочная памяти функционируют как две параллельные ветви одного процесса. При поступлении новых данных они одновременно направляются и в LTM, и в механизм внимания (кратковременную память). Модель анализирует попарные взаимодействия между этими источниками, объединяя полученные данные через конкатенацию или умножение. Такой дизайн позволяет модели более гибко оперировать обоими типами памяти, объединяя текущие наблюдения с накопленным опытом без жесткой иерархической последовательности, свойственной другим подходам.

🧱 Память как слой (Memory as Layer) 1:36:05

Наиболее интуитивно понятный и часто встречающийся в литературе метод — «память как слой». В этой схеме модули LTM и внимания соединяются последовательно, образуя «слои» модели. Данные проходят через один модуль, который передает результат следующему, и этот процесс повторяется. Несмотря на популярность такой архитектуры, эмпирические результаты показывают, что она проигрывает методам «контекста» и «гейта» почти во всех категориях.

Али Бехруз отмечает, что использование «памяти как слоя» часто является следствием инерции исследовательского сообщества, привыкшего «стекать» блоки внимания и блоки типа Mamba (ранее в разговоре они касались гибридных архитектур), не всегда привнося в это принципиально обоснованную логику. В то время как стратегии «контекста» и «гейта» демонстрируют более высокую эффективность и теоретическую обоснованность, «память как слой» выигрывает лишь в редких случаях, что ставит под сомнение целесообразность ее повсеместного доминирования.

🚀 Масштабирование и экстраполяция: на пути к 10 миллионам токенов 1:40:20

Одной из самых амбициозных целей при разработке архитектуры Titans было создание системы, способной эффективно работать с контекстом экстремальной длины. В то время как традиционные трансформеры сталкиваются с квадратичной сложностью и деградацией качества при расширении окна контекста, Али Бехруз (Ali Behrouz) указывает на то, что Titans демонстрирует уникальную устойчивость к масштабированию, превосходя даже гораздо более крупные проприетарные модели в специфических задачах на длинный контекст.

Теоретическое превосходство и задачи на отслеживание состояний 1:43:45

С точки зрения теории вычислительной сложности, многие современные модели, такие как Mamba, RetNet или стандартные трансформеры, ограничены классом проблем TC0 . Исследования показывают, что диагональные модели пространства состояний (SSM) и трансформеры не могут эффективно решать задачи, требующие глубокого отслеживания состояний.

Али Бехруз приводит в пример простую задачу «трекера состояний»: модели дается длинная последовательность команд (например, «шаг влево», «шаг вправо», «вверх»), и в конце она должна определить свои координаты .

Линейные RNN и трансформеры часто пасуют перед такими задачами в рамках одного прохода.
Нейронная память Titans, благодаря своей нелинейной природе, способна решать подобные задачи даже с одним слоем .
Это делает Titans более экспрессивной архитектурой по сравнению с «диагональными» альтернативами вроде Mamba 2 или S4 .

Хотя на практике огромные модели (вроде GPT-4 или рассуждающих моделей o1) могут справляться с такими тестами за счет огромного количества параметров или дополнительных токенов для «размышлений», Titans обладает фундаментальным архитектурным преимуществом, позволяющим достигать тех же результатов гораздо более эффективным путем . Как отмечалось ранее в разговоре, это связано с гибридной природой архитектуры, объединяющей сильные стороны RNN и внимания.

Феномен масштабирования до 10 миллионов токенов 1:51:03

Наиболее впечатляющим результатом исследования Titans стала способность модели масштабироваться до контекста в 10 миллионов токенов . В синтетических тестах на длинный контекст Titans демонстрирует поразительную точность там, где лидеры рынка начинают стремительно терять производительность.

Например, в бенчмарках, где GPT-4 показывает резкое падение точности при увеличении объема данных, Titans с небольшим количеством параметров сохраняет работоспособность . При достижении отметки в 10 млн токенов точность модели остается на уровне около 70%, что является беспрецедентным показателем для архитектуры такого размера .

Этот успех обусловлен несколькими факторами:

Архитектура MAC (Memory as Context): Разделение на долгосрочную и краткосрочную память позволяет ветвям страховать друг друга при обработке огромных массивов данных .
Консистентность обучения: В отличие от некоторых моделей (например, Mamba), которые показывают отличные результаты при малом объеме обучающих данных, но начинают уступать трансформерам при увеличении числа токенов, Titans сохраняет стабильное превосходство над аналогами .
Эффективное сжатие: Модуль нейронной памяти в MAC-архитектуре берет на себя задачу суммаризации данных в фиксированный набор токенов для блока внимания .

Экстраполяция длины и возможность ретрофитинга 1:57:09

Важной проблемой для ИИ остается «обобщение по длине» (length generalization) — способность модели работать с последовательностями, которые значительно длиннее тех, что использовались при обучении. Али Бехруз отмечает, что обычные трансформеры и RNN часто деградируют уже на пороге в 16 000 токенов, если не использовать специальные ухищрения с позиционным кодированием .

Titans решает эту проблему через саму структуру MAC. Поскольку блок внимания в этой архитектуре работает с фиксированным локальным окном, ему не нужно «видеть» миллионы токенов одновременно — он лишь учится эффективно использовать информацию, которую ему поставляет долгосрочная память .

Это открывает захватывающие перспективы для «ретрофитинга» уже существующих моделей. Теоретически, можно взять открытую модель (например, Llama) и интегрировать в неё модуль долгосрочной памяти Titans .

Это потребует лишь частичного дообучения (continued training), чтобы модель научилась воспринимать выходные данные памяти как релевантный контекст .
Такой подход позволит расширять возможности моделей без необходимости их полной перетренировки с нуля на гигантских контекстных окнах .

В будущем это может позволить агентам обучаться целым новым областям знаний в режиме реального времени. Хотя сейчас память ограничена латентным пространством предобученной модели, Али Бехруз видит большой потенциал в сочетании Titans с методами непрерывного дообучения для корпоративного сектора .

🧠 Риски непрерывного обучения: преодоление катастрофического забывания 2:05:36

Тест-тайм обучение и угроза потери прошлых знаний 2:05:36

В заключительной части глубокого обсуждения Али Бехруз (Ali Behrouz) обращается к одной из самых интригующих и одновременно сложных проблем современного искусственного интеллекта — феномену катастрофического забывания (catastrophic forgetting). Эта фундаментальная трудность встает в полный рост, когда исследователи пытаются обучать модель на протяжении экстремально длительных периодов времени. Особый акцент автор исследования делает на концепции так называемого «тест-тайм обучения» (test-time training), в рамках которого параметры нейросети адаптируются и обновляются непосредственно «на лету», в процессе реальной эксплуатации системы под конкретные новые задачи или контексты.

Хотя сама идея динамической подстройки выглядит многообещающе, на практике разработчики сталкиваются с суровым барьером: в процессе освоения новой специфической задачи или локального контекста модель демонстрирует тенденцию полностью стирать из своей структуры ранее накопленный опыт. Али Бехруз детально описывает этот деструктивный механизм: пытаясь подстроиться под текущую конфигурацию данных и сиюминутные требования, алгоритм жертвует глобальной стабильностью. При долгосрочном тест-тайм обучении нейросеть начинает безвозвратно терять информацию о начальных токенах контекстного окна и базовых задачах, на которых она тренировалась изначально. В результате долгосрочная адаптация превращается в серьезный вызов, поскольку система фактически теряет способность удерживать баланс между гибкостью и сохранением фундаментальной базы знаний.

Ключ к автономным агентам и адаптивной робототехнике 2:07:12

Значимость преодоления этого барьера трудно переоценить, поскольку решение проблемы катастрофического забывания способно открыть двери для технологий, которые сегодня кажутся делом далекого будущего. Али Бехруз прямо заявляет, что если научному сообществу удастся справиться с этой задачей, это автоматически снимет ключевые ограничения во множестве сложнейших прикладных направлений. Полноценное устранение риска потери памяти кардинально изменит ландшафт следующих индустрий:

Развитие продвинутой и адаптивной робототехники, способной обучаться на лету в реальном мире.
Эффективное развертывание систем обучения с подкреплением (reinforcement learning), требующих от агентов накопления многоступенчатого опыта без риска его сброса при смене среды.
Создание комплексных ИИ-агентов, рассчитанных на автономное функционирование в течение долгого времени.

Развивая эту мысль, ведущий подкаста отмечает, что обеспечение подлинной непрерывности памяти (continuity of memory) станет триггером для появления принципиально новых продуктов. Бизнес сможет получить полноценного «цифрового сотрудника» (drop-in knowledge worker), обладающего тотальным контекстом всей истории предприятия и знающего каждый шаг организации за годы ее существования. Кроме того, это сделает возможным запуск автономных агентов-долгожителей, которые могут совершать ошибки в ходе выполнения длинных цепочек задач, оперативно делать выводы и гарантированно не повторять те же промахи дважды. И хотя текущие архитектурные подходы находятся лишь на начальном этапе этого пути, они уже делают весомый и значимый шаг вперед.

Универсальность архитектурных решений за пределами работы с текстом 2:08:20

Ранее в разговоре собеседники детально анализировали концепцию архитектуры Titans как нейросети долговременной памяти, но в финальном блоке интервью Али Бехруз призывает выйти за рамки привычной обработки текстов. Исследователь признается, что его больше всего вдохновляет перспектива масштабирования подобных подходов на совершенно иные задачи и типы данных. Несмотря на то, что сейчас фокус индустрии смещен на удержание сверхдлинного текстового контекста, в реальном мире существует масса альтернативных модальностей, где потребность в долговременной памяти выражена еще острее. В частности, это касается умных агентов, систем принятия решений (decision making) и алгоритмов обучения с подкреплением, где критически важно распознавать сложные, протяженные во времени паттерны.

Али Бехруз проводит глубокую историческую аналогию с моделями-трансформерами. Их фундаментальный и повсеместный успех во многом объяснялся тем, что они оказались невероятно эффективны в самых разных сферах глубокого обучения, выйдя далеко за рамки классического языкового моделирования. Для архитектуры Titans и подобных ей систем ключевой проверкой на прочность станет аналогичная демонстрация универсальности за пределами текстовых доменов.

Перед разработчиками открывается огромное поле для тонкой настройки и кастомизации модулей памяти под специфические вызовы. Например, если классическая Mac-архитектура, использующая гейтинг краткосрочной и долгосрочной памяти, отлично зарекомендовала себя в работе с языком, она же может показать феноменальную продуктивность в стратегическом планировании и автономном принятии решений. Исследования в этом направлении только начинаются, и авторы ИИ-систем продолжат закладывать математические и вычислительные основы для архитектур будущего, которые приблизят индустрию к созданию универсального сильного искусственного интеллекта.