Джейкоб из Manifest AI: «Будущее ИИ — это не трансформеры, а Power Retention»

Eye on AI 3,2 тыс. 56 мин 4 мин 09.11.2025
Главное

В новом интервью для канала Eye on AI сооснователь исследовательской лаборатории Manifest AI Джейкоб (Jacob) заявляет, что текущий стек технологий на базе трансформеров неспособен привести человечество к полноценному сильному ИИ (AGI). Он представляет новую архитектуру — Power Retention, которая решает проблему «квадратичного взрыва» вычислительных затрат при увеличении контекстного окна и позволяет создавать модели с практически неограниченной памятью.

📉 Проблема «квадратичного взрыва» в трансформерах 3:40

Фундаментальный барьер современных LLM заключается в том, как они масштабируются. По словам Джейкоба, законы масштабирования параметров работают отлично: при увеличении числа параметров производительность растёт, а стоимость обучения и инференса увеличивается линейно. Однако с размером входных данных (контекстным окном) ситуация иная.

В архитектуре Transformer стоимость обработки каждого нового токена растёт квадратично относительно длины контекста. Это происходит потому, что каждый токен должен «взаимодействовать» со всеми предыдущими. По мнению гостя, это делает обработку сверхбольших объёмов данных экономически и технически невозможной на текущем железе.

Джейкоб отмечает, что Manifest AI потратила около двух с половиной лет на изучение того, как этот квадратичный рост влияет на обучение и взаимодействие с GPU. Итогом этих исследований стала архитектура Power Retention.

🔄 Суть Power Retention: Двойственность и «секретная форма» 7:35

Power Retention относится к семейству моделей на основе состояний (State Space Models, SSM), таких как Mamba. Ключевой особенностью этих моделей является их дуализм:

Джейкоб утверждает, что такие модели открывают «секретную третью форму» — блочную (chunked) формулировку. Она объединяет лучшие черты рекурсии и внимания, позволяя полностью загружать мощности видеокарт при сохранении линейной сложности.

Однако гость критикует существующие SSM (включая Mamba и модели предыдущего поколения, такие как LSTM) за слишком малый размер «состояния» (state size) по сравнению с весами модели. В трансформерах роль состояния играет KV-кэш, который может быть огромным, что и обеспечивает им высокую производительность. Power Retention позволяет настраивать размер состояния независимо от количества параметров, используя математическую операцию симметричной степени (symmetric power).

🦋 Метаморфоза: Как превратить Llama в Power Retention 18:29

Одной из самых амбициозных идей Manifest AI является концепция «Метаморфозы». Разработчикам не нужно обучать модели с нуля, затрачивая миллионы долларов.

Джейкоб описывает процесс конвертации существующих открытых моделей (например, Llama) в формат Power Retention:

  1. Берутся предобученные веса трансформера (например, Llama 70B).
  2. В коде архитектуры вызов функции attention заменяется на одну строку с power retention.
  3. Проводится «дообучение» (retraining) всей модели.

По данным Manifest AI, для восстановления исходного уровня производительности требуется всего около 6 часов работы на нескольких десятках GPU (а не тысячах). В результате получается модель с теми же знаниями, но с гораздо более быстрым инференсом и способностью эффективно работать с длинным контекстом. В качестве доказательства концепции лаборатория выпустила модель Power Coder на 3 миллиарда параметров.

🧠 От «Консультанта» к «Дворецкому»: Новая парадигма памяти 25:05

Джейкоб считает, что индустрия ИИ сегодня страдает от «грязного секрета». По его мнению, многие поставщики моделей заявляют о поддержке миллионного контекста, но используют уловки вроде «разреженного внимания» (sparse attention), из-за чего модель на самом деле плохо помнит середину текста или детали за пределами первых 32 тысяч токенов.

Power Retention позволяет реализовать истинное непрерывное обучение через обновление состояния (state), а не весов. Джейкоб приводит важную биологическую аналогию:

Гость предсказывает смену модели взаимодействия с ИИ:

🤖 Применение в науке и робототехнике 35:26

Технология может радикально изменить подход к научным открытиям. Если загрузить в модель с «бесконечным» контекстом всю литературу по определенной области знаний, она сможет синтезировать глубокие выводы, недоступные при чтении отдельных фрагментов через RAG (поиск по базе знаний).

В робототехнике Power Retention позволит роботам адаптироваться к физическому износу. По мнению Джейкоба, робот должен сохранять единое состояние на протяжении всей жизни. Если у него износится деталь ноги, он не должен переобучаться с нуля — его накопленное состояние позволит ему «научиться прихрамывать» или использовать костыль, опираясь на интуицию, полученную за годы эксплуатации.

Хотя технология применима к видео и аудио (через эмбеддинги), Джейкоб подчеркивает особую важность текста как среды с наивысшим соотношением сигнал/шум для передачи интеллекта.

Инструментарий Power Retention уже доступен в open-source через pip install retention, а веса моделей опубликованы на Hugging Face.

💬 Цитаты

«По нашему мнению, стек, который завел нас так далеко, не будет единственным элементом, необходимым для достижения будущего с AGI.»

Джейкоб 2:45

«Вместо того чтобы быть консультантом, который ничего о вас не знает, ИИ станет дворецким, который помнит всю вашу жизнь.»

«Текст — это способ получить самый высокий интеллект при самом низком вычислительном бюджете.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Квадратичная стоимость
Математическая зависимость, при которой затраты ресурсов растут пропорционально квадрату длины входных данных.
KV-кэш
Механизм памяти в трансформерах, хранящий ключи и значения для всех обработанных токенов.
SSM (State Space Models)
Модели пространства состояний, использующие дифференциальные уравнения для обработки последовательностей.
Эмбеддинг
Преобразование слов или изображений в векторы чисел, понятные нейросети.
RAG (Retrieval-Augmented Generation)
Метод, при котором ИИ ищет информацию во внешних базах данных перед генерацией ответа.
📊 Цифры
🗓 Хронология
  1. 2.5 года назад Начало исследований Manifest AI в области масштабирования контекста.
  2. Май 2026 Релиз инструментов Power Retention и модели Power Coder на Hugging Face (за 2 недели до интервью).
⚖️ Другая сторона
Искусственный интеллект Manifest AI Power Retention Transformer Mamba State Space Models