Компания Google Research представила новую архитектуру нейронных сетей под названием Titans, которая может стать следующим фундаментальным шагом в развитии искусственного интеллекта. В своем новом видео технический обозреватель Уэс Рот (Wes Roth) анализирует, как эта разработка исправляет ключевые недостатки архитектуры Transformer, доминировавшей в индустрии с 2017 года, и почему инженеры Google решили черпать вдохновение в механизмах работы человеческой памяти, таких как «фактор удивления» и долгосрочное хранение данных.
🧠 От внимания к памяти: рождение архитектуры Titans 0:00
В 2017 году Google совершила революцию, представив архитектуру Transformer, которая легла в основу современных чат-ботов и генеративных моделей . Главной инновацией тогда стал механизм «внимания» (attention), который, подобно человеческому мозгу, позволяет модели фокусироваться на наиболее важных частях входящей информации, игнорируя фоновый шум . Однако, по мнению Уэса Рота, современные модели постепенно упираются в технологический потолок, что потребовало создания Titans — архитектуры, которая еще сильнее копирует биологические процессы .
В основе Titans лежат концепции, напрямую заимствованные из нейробиологии:
- Краткосрочная рабочая память.
- Долгосрочная персистентная память.
- Механизм забывания ненужной информации.
- Приоритезация данных на основе «индекса удивления» .
⚙️ Ограничения архитектуры Transformer и «квадратичная стоимость» 1:34
Для понимания значимости Titans необходимо осознать проблему текущих моделей. Уэс Рот объясняет принцип работы трансформеров через процесс превращения текста в токены (фрагменты слов) и векторы (числовые координаты в многомерном пространстве) . Механизм внимания позволяет этим векторам «общаться» друг с другом, чтобы уточнить значение слов в зависимости от контекста (например, отличить «модель» в машинном обучении от «модели» на подиуме) .
Однако у этой точности есть цена, которую специалисты называют «квадратичной стоимостью» (quadratic cost) .
- При удвоении объема входного текста вычислительные затраты возрастают в четыре раза .
- Это накладывает жесткие ограничения на «окно контекста» — объем данных, который модель может удерживать в памяти одновременно.
- Хотя некоторые современные модели (например, Gemini) достигли окна в 2 миллиона токенов, это все еще является пределом, за которым эффективность резко падает .
🏛️ Модуль нейронной долгосрочной памяти 6:18
Разработчики Google предлагают разделить систему на два ключевых модуля. В этой схеме привычное «внимание» берет на себя роль краткосрочной рабочей памяти, обеспечивая точное моделирование зависимостей в текущем фрагменте текста . Параллельно с ним работает новый модуль нейронной долгосрочной памяти (Neural Long-Term Memory), который запоминает исторический контекст и позволяет обращаться к информации, полученной задолго до текущего момента .
Ключевые технические преимущества такого подхода, согласно материалам исследования:
- Быстрое и распараллеливаемое обучение (модели можно тренировать эффективно на больших кластерах) .
- Высокая скорость инференса (выдачи ответов пользователю) .
- Способность работать с данными за пределами окна в 2 миллиона токенов без потери точности .
😲 Фактор «удивления» и управление забыванием 9:23
Одной из самых неожиданных и эффективных находок в архитектуре Titans стал механизм управления памятью. Поскольку физическая память модели конечна, она должна эффективно выбирать, что хранить, а что удалять. Google внедрила «индекс удивления»: информация, которая противоречит ожиданиям модели или является новой и неожиданной, получает приоритет при записи в долгосрочную память .
Уэс Рот проводит аналогию с человеческим восприятием: мы гораздо лучше запоминаем события, которые нас поразили . По его словам, в Titans реализован механизм затухания (decaying mechanism), который работает следующим образом:
- События, вызывающие «удивление», сохраняются в параметрах нейронов.
- Старая, рутинная или малозначимая информация постепенно «стирается», освобождая место для новых данных .
- Модель учится не просто механически запоминать всё подряд, а выделять суть (grokking), что критически важно для обобщения знаний .
🐕 Обобщение против переобучения: аналогия с полосой препятствий 10:39
В машинном обучении существует проблема «переобучения» (overfitting), когда модель просто зазубривает тренировочные данные и не может справиться с новыми задачами. Уэс Рот приводит наглядный пример с собакой, которую тренируют для соревнований по бегу с препятствиями .
Если собака просто выучит пять конкретных трасс дома, она провалится на реальном чемпионате, где трасса будет уникальной. Цель тренировки — научить собаку принципам: когда прыгать, когда ползти, как координировать движения . Titans стремится к такому же уровню абстракции. Вместо того чтобы цитировать обучающую выборку, нейронная память учится запоминать функциональные закономерности, что повышает производительность модели при работе с реальными задачами пользователя .
🧬 Результаты тестов: ДНК, физика и «иголка в стоге сена» 14:08
Эффективность Titans была протестирована в нескольких сложных дисциплинах, выходящих за рамки простого написания текстов. Исследователи использовали тест «Needle in a Haystack» (Иголка в стоге сена), где модели нужно найти одну маленькую деталь в огромном массиве данных .
Результаты испытаний:
- В отличие от стандартных трансформеров, точность которых падает при увеличении длины последовательности, Titans сохраняет стабильно высокие показатели .
- Архитектура показала превосходство в задачах прогнозирования временных рядов (Time Series forecasting), обойдя такие модели, как Mamba и классические линейные архитектуры .
- В моделировании ДНК и геномике Titans продемонстрировали конкурентоспособность с лучшими узкоспециализированными решениями .
По мнению Уэса Рота, хотя многие анонсируют «смерть трансформеров», Titans выглядит скорее как их эволюционное продолжение, устраняющее фундаментальные ограничения памяти и стоимости вычислений .