Google: «Архитектура Titans копирует человеческую память для прорыва в ИИ»

Wes Roth 46,8 тыс. 15 мин 4 мин 16.01.2025
Главное

Компания Google Research представила новую архитектуру нейронных сетей под названием Titans, которая может стать следующим фундаментальным шагом в развитии искусственного интеллекта. В своем новом видео технический обозреватель Уэс Рот (Wes Roth) анализирует, как эта разработка исправляет ключевые недостатки архитектуры Transformer, доминировавшей в индустрии с 2017 года, и почему инженеры Google решили черпать вдохновение в механизмах работы человеческой памяти, таких как «фактор удивления» и долгосрочное хранение данных.

🧠 От внимания к памяти: рождение архитектуры Titans 0:00

В 2017 году Google совершила революцию, представив архитектуру Transformer, которая легла в основу современных чат-ботов и генеративных моделей . Главной инновацией тогда стал механизм «внимания» (attention), который, подобно человеческому мозгу, позволяет модели фокусироваться на наиболее важных частях входящей информации, игнорируя фоновый шум . Однако, по мнению Уэса Рота, современные модели постепенно упираются в технологический потолок, что потребовало создания Titans — архитектуры, которая еще сильнее копирует биологические процессы .

В основе Titans лежат концепции, напрямую заимствованные из нейробиологии:

⚙️ Ограничения архитектуры Transformer и «квадратичная стоимость» 1:34

Для понимания значимости Titans необходимо осознать проблему текущих моделей. Уэс Рот объясняет принцип работы трансформеров через процесс превращения текста в токены (фрагменты слов) и векторы (числовые координаты в многомерном пространстве) . Механизм внимания позволяет этим векторам «общаться» друг с другом, чтобы уточнить значение слов в зависимости от контекста (например, отличить «модель» в машинном обучении от «модели» на подиуме) .

Однако у этой точности есть цена, которую специалисты называют «квадратичной стоимостью» (quadratic cost) .

  1. При удвоении объема входного текста вычислительные затраты возрастают в четыре раза .
  2. Это накладывает жесткие ограничения на «окно контекста» — объем данных, который модель может удерживать в памяти одновременно.
  3. Хотя некоторые современные модели (например, Gemini) достигли окна в 2 миллиона токенов, это все еще является пределом, за которым эффективность резко падает .

🏛️ Модуль нейронной долгосрочной памяти 6:18

Разработчики Google предлагают разделить систему на два ключевых модуля. В этой схеме привычное «внимание» берет на себя роль краткосрочной рабочей памяти, обеспечивая точное моделирование зависимостей в текущем фрагменте текста . Параллельно с ним работает новый модуль нейронной долгосрочной памяти (Neural Long-Term Memory), который запоминает исторический контекст и позволяет обращаться к информации, полученной задолго до текущего момента .

Ключевые технические преимущества такого подхода, согласно материалам исследования:

😲 Фактор «удивления» и управление забыванием 9:23

Одной из самых неожиданных и эффективных находок в архитектуре Titans стал механизм управления памятью. Поскольку физическая память модели конечна, она должна эффективно выбирать, что хранить, а что удалять. Google внедрила «индекс удивления»: информация, которая противоречит ожиданиям модели или является новой и неожиданной, получает приоритет при записи в долгосрочную память .

Уэс Рот проводит аналогию с человеческим восприятием: мы гораздо лучше запоминаем события, которые нас поразили . По его словам, в Titans реализован механизм затухания (decaying mechanism), который работает следующим образом:

🐕 Обобщение против переобучения: аналогия с полосой препятствий 10:39

В машинном обучении существует проблема «переобучения» (overfitting), когда модель просто зазубривает тренировочные данные и не может справиться с новыми задачами. Уэс Рот приводит наглядный пример с собакой, которую тренируют для соревнований по бегу с препятствиями .

Если собака просто выучит пять конкретных трасс дома, она провалится на реальном чемпионате, где трасса будет уникальной. Цель тренировки — научить собаку принципам: когда прыгать, когда ползти, как координировать движения . Titans стремится к такому же уровню абстракции. Вместо того чтобы цитировать обучающую выборку, нейронная память учится запоминать функциональные закономерности, что повышает производительность модели при работе с реальными задачами пользователя .

🧬 Результаты тестов: ДНК, физика и «иголка в стоге сена» 14:08

Эффективность Titans была протестирована в нескольких сложных дисциплинах, выходящих за рамки простого написания текстов. Исследователи использовали тест «Needle in a Haystack» (Иголка в стоге сена), где модели нужно найти одну маленькую деталь в огромном массиве данных .

Результаты испытаний:

По мнению Уэса Рота, хотя многие анонсируют «смерть трансформеров», Titans выглядит скорее как их эволюционное продолжение, устраняющее фундаментальные ограничения памяти и стоимости вычислений .

💬 Цитаты

«Мы разработали этот модуль памяти так, чтобы событие, нарушающее ожидания модели — то есть удивляющее её — запоминалось лучше.»

Уэс Рот (цитируя исследование Google) 09:37

«Внимание — это своего рода рабочая память, в то время как нейронная память действует как долгосрочная, более устойчивая память.»

«Titans способны эффективно масштабироваться до окна контекста более 2 миллионов токенов с более высокой точностью.»

👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
Токены
Базовые единицы текста (слова или их части), которые ИИ использует для обработки информации.
Квадратичная стоимость
Проблема, при которой затраты на вычисления растут пропорционально квадрату объема входных данных.
Needle in a Haystack
Тест на способность нейросети находить конкретный факт в огромном массиве текста.
Инференс
Процесс работы уже обученной модели при ответе на запросы пользователя.
📊 Цифры
🗓 Хронология
  1. 2017 Google выпускает архитектуру Transformer, изменившую индустрию ИИ.
  2. 2024 Google Research представляет архитектуру Titans с нейронной долгосрочной памятью.
⚖️ Другая сторона
Искусственный интеллект Google Research Titans AI Transformer Neural Memory Wes Roth