В новом интервью для канала Eye on AI сооснователь исследовательской лаборатории Manifest AI Джейкоб (Jacob) заявляет, что текущий стек технологий на базе трансформеров неспособен привести человечество к полноценному сильному ИИ (AGI). Он представляет новую архитектуру — Power Retention, которая решает проблему «квадратичного взрыва» вычислительных затрат при увеличении контекстного окна и позволяет создавать модели с практически неограниченной памятью.
📉 Проблема «квадратичного взрыва» в трансформерах 3:40
Фундаментальный барьер современных LLM заключается в том, как они масштабируются. По словам Джейкоба, законы масштабирования параметров работают отлично: при увеличении числа параметров производительность растёт, а стоимость обучения и инференса увеличивается линейно. Однако с размером входных данных (контекстным окном) ситуация иная.
В архитектуре Transformer стоимость обработки каждого нового токена растёт квадратично относительно длины контекста. Это происходит потому, что каждый токен должен «взаимодействовать» со всеми предыдущими. По мнению гостя, это делает обработку сверхбольших объёмов данных экономически и технически невозможной на текущем железе.
Джейкоб отмечает, что Manifest AI потратила около двух с половиной лет на изучение того, как этот квадратичный рост влияет на обучение и взаимодействие с GPU. Итогом этих исследований стала архитектура Power Retention.
🔄 Суть Power Retention: Двойственность и «секретная форма» 7:35
Power Retention относится к семейству моделей на основе состояний (State Space Models, SSM), таких как Mamba. Ключевой особенностью этих моделей является их дуализм:
- Рекуррентная форма: позволяет работать с фиксированным объёмом памяти (состоянием), что обеспечивает линейный рост затрат при увеличении контекста.
- Внимающая форма (Attention): позволяет эффективно использовать параллелизм современных GPU во время обучения.
Джейкоб утверждает, что такие модели открывают «секретную третью форму» — блочную (chunked) формулировку. Она объединяет лучшие черты рекурсии и внимания, позволяя полностью загружать мощности видеокарт при сохранении линейной сложности.
Однако гость критикует существующие SSM (включая Mamba и модели предыдущего поколения, такие как LSTM) за слишком малый размер «состояния» (state size) по сравнению с весами модели. В трансформерах роль состояния играет KV-кэш, который может быть огромным, что и обеспечивает им высокую производительность. Power Retention позволяет настраивать размер состояния независимо от количества параметров, используя математическую операцию симметричной степени (symmetric power).
🦋 Метаморфоза: Как превратить Llama в Power Retention 18:29
Одной из самых амбициозных идей Manifest AI является концепция «Метаморфозы». Разработчикам не нужно обучать модели с нуля, затрачивая миллионы долларов.
Джейкоб описывает процесс конвертации существующих открытых моделей (например, Llama) в формат Power Retention:
- Берутся предобученные веса трансформера (например, Llama 70B).
- В коде архитектуры вызов функции
attentionзаменяется на одну строку сpower retention. - Проводится «дообучение» (retraining) всей модели.
По данным Manifest AI, для восстановления исходного уровня производительности требуется всего около 6 часов работы на нескольких десятках GPU (а не тысячах). В результате получается модель с теми же знаниями, но с гораздо более быстрым инференсом и способностью эффективно работать с длинным контекстом. В качестве доказательства концепции лаборатория выпустила модель Power Coder на 3 миллиарда параметров.
🧠 От «Консультанта» к «Дворецкому»: Новая парадигма памяти 25:05
Джейкоб считает, что индустрия ИИ сегодня страдает от «грязного секрета». По его мнению, многие поставщики моделей заявляют о поддержке миллионного контекста, но используют уловки вроде «разреженного внимания» (sparse attention), из-за чего модель на самом деле плохо помнит середину текста или детали за пределами первых 32 тысяч токенов.
Power Retention позволяет реализовать истинное непрерывное обучение через обновление состояния (state), а не весов. Джейкоб приводит важную биологическую аналогию:
- Обновление весов — это эволюция. Геном человека меняется миллионы лет, создавая «хороший мозг» (архитектуру).
- Обновление состояния — это жизнь индивида. Весь наш жизненный опыт — это один длинный контекст, который обновляет электрические сигналы в мозгу (состояние), не меняя структуру ДНК.
Гость предсказывает смену модели взаимодействия с ИИ:
- Сейчас (Трансформеры): Это «консультант». Вы открываете новый чат, и ИИ ничего не знает о вас. Вы вынуждены каждый раз давать контекст, потому что хранить его вечно в трансформере слишком дорого.
- Будущее (Retention): Это «дворецкий». ИИ знает вас с детства, помнит все ваши предпочтения и предыдущие разговоры, потому что он работает в рамках одной бесконечной сессии, постоянно обновляя свое внутреннее состояние.
🤖 Применение в науке и робототехнике 35:26
Технология может радикально изменить подход к научным открытиям. Если загрузить в модель с «бесконечным» контекстом всю литературу по определенной области знаний, она сможет синтезировать глубокие выводы, недоступные при чтении отдельных фрагментов через RAG (поиск по базе знаний).
В робототехнике Power Retention позволит роботам адаптироваться к физическому износу. По мнению Джейкоба, робот должен сохранять единое состояние на протяжении всей жизни. Если у него износится деталь ноги, он не должен переобучаться с нуля — его накопленное состояние позволит ему «научиться прихрамывать» или использовать костыль, опираясь на интуицию, полученную за годы эксплуатации.
Хотя технология применима к видео и аудио (через эмбеддинги), Джейкоб подчеркивает особую важность текста как среды с наивысшим соотношением сигнал/шум для передачи интеллекта.
Инструментарий Power Retention уже доступен в open-source через pip install retention, а веса моделей опубликованы на Hugging Face.