# Зепп Хохрайтер: «Мы работаем быстрее самого быстрого трансформера»

Источник: https://www.youtube.com/watch?v=7_SYtVpWwTw
Канал: Eye on AI
Опубликовано: 22.01.2025

---

Спустя годы после того, как архитектура LSTM временно уступила лидерство трансформерам в сфере больших языковых моделей, её создатель Зепп Хохрайтер (Sepp Hochreiter) возвращается с масштабным технологическим ответом. В интервью для канала Eye on AI немецкий ученый подробно описал механизмы новой архитектуры xLSTM, способной радикально снизить затраты на вычисления и энергопотребление в ИИ-системах. В центре дискуссии — фундаментальные проблемы глубокого обучения, создание стартапа NXAI и грядущая экспансия нейросетей в реальный сектор экономики, симуляции и робототехнику.

## 🧠 Загадка затухающего градиента и рождение LSTM
[[JUMP:0:00]]

История современной индустрии искусственного интеллекта тесно связана с фундаментальной математической проблемой, которую Зепп Хохрайтер обнаружил еще в 1991 году во время работы над своей дипломной диссертацией. Его научный руководитель, знаменитый ученый Юрген Шмидхубер, изначально скептически относился к рекуррентным нейронным сетям (RNN), поскольку они не были способны удерживать информацию в памяти на протяжении долгих последовательностей. Сети могли запоминать лишь последние несколько слов. Хохрайтер взялся за глубокий анализ этой проблемы и открыл явление, которое сегодня известно всему миру как «затухающий градиент» (vanishing gradient).


Суть затухающего градиента заключается в специфике распределения весов при обратном распространении ошибки во времени. По словам ученого, если системе нужно определить контекст предложения, где ключевое слово находится в самом начале, при движении назад во времени каждый шаг уменьшает вклад этого слова на определенный постоянный коэффициент (например, 0.9). В результате последовательного умножения ($0.9 \times 0.9 \times 0.9 \dots$) значение градиента стремительно приближается к нулю. Сеть теряет способность «видеть» и распознавать сигналы, находившиеся в начале последовательности. Этот же феномен долгое время делал невозможным построение глубоких многослойных нейросетей, так как градиент затухал при прохождении сквозь слои. 

Идеальная архитектура, как объясняет Хохрайтер, должна сохранять одинаковый масштаб вклада элемента вне зависимости от его удаленности в цепочке данных. Так родилась концепция Long Short-Term Memory (LSTM). Её ключевым элементом стала ячейка памяти (memory cell), внутри которой при движении назад во времени масштабирование происходит с фиксированным фактором, равным единице. 

Это позволило сохранять информацию на протяжении сотен и тысяч временных шагов. Впоследствии технология стала стандартом индустрии:

* Она координировала работу голосовых помощников Alexa и Siri.
* Она была интегрирована в каждый смартфон на базе Android и iOS.
* Она использовалась ИТ-гигантами от Google до Alibaba для распознавания речи и перевода.

Хохрайтер напоминает, что сооснователь OpenAI Илья Суцкевер получил престижную награду Test of Time Award именно за применение LSTM в обучении последовательностей (sequence-to-sequence learning), а саму компанию Google на определенном этапе открыто называли «LSTM-компанией».

## 📉 Триумф трансформеров и эпоха «Attention Is All You Need»
[[JUMP:8:08]]

Ситуация кардинально изменилась в 2017 instance году с выходом статьи «Attention is all you need», представившей архитектуру трансформеров. До этого механизмы внимания (attention) развивались параллельно и всегда использовались в комбинации с LSTM. Ученые создавали гибридные решения: например, Алекс Грейвс разрабатывал нейронную машину Тьюринга на базе LSTM, создавались аддитивные и мультипликативные механизмы внимания. Все они преследовали цель расширить ограниченную на тот момент внутреннюю память ячейки LSTM.

Однако авторы статьи 2017 года предложили полностью отказаться от LSTM, оставив исключительно механизм внимания для работы с контекстом во времени. Главным преимуществом трансформеров стала возможность колоссального распараллеливания вычислений. Это позволило инженерам «скармливать» алгоритмам беспрецедентные объемы данных и кратно масштабировать модели. 

Трансформеры быстро вытеснили LSTM из сферы обработки естественного языка, хотя классическая архитектура сохранила сильные позиции в других критически важных областях:

* Агент OpenAI Five в игре Dota 2 опирался на массивную сеть LSTM.
* Система AlphaStar от DeepMind для игры в Starcraft использовала LSTM.
* Официальные государственные модели США и Канады для прогнозирования наводнений и засух, созданные Google, до сих пор работают на базе LSTM.

Хохрайтер признает, что классический LSTM проиграл языковую гонку из-за невозможности перешагнуть барьер масштабирования данных. Это подтолкнуло его команду к созданию xLSTM (extended LSTM) — архитектуры, призванной устранить три ключевых исторических лимита оригинальной технологии.

## 🚀 Эволюция архитектуры: как устроен xLSTM
[[JUMP:11:01]]

Для триумфального возвращения технологии Хохрайтеру и его исследователям пришлось переработать три фундаментальных ограничения старой модели. 

Во-первых, классическая ячейка LSTM не умела пересматривать ранее принятые решения о хранении информации: если данные были записаны, сеть не могла их стереть, если позже выяснялось, что они ошибочны. Эту проблему решили внедрением механизма экспоненциального гейтинга (exponential gating). 

Во-вторых, оригинальная модель обладала крайне малым объемом памяти — условно, в ячейке хранилось лишь одно число. Разработчики расширили память, интегрировав внутрь структуры классическую сеть Хопфилда. Хохрайтер с иронией замечает, что пока Джон Хопфилд получал Нобелевскую премию за свои исторические работы, его команда успешно скрестила сеть Хопфилда с гейтами ввода-вывода LSTM. Это дало xLSTM колоссальный объем быстрой и эффективной памяти. 

В-третьих, математическую структуру xLSTM изменили так, чтобы сделать её полностью паралеллизуемой на видеокартах (GPU), аналогично трансформерам.

[Image comparing Transformer self-attention quadratic complexity vs xLSTM linear complexity]

Результатом этой интеграции стало создание модели xLSTM на 7 миллиардов параметров (7B), которая в тестах на обработку языка показала результаты на уровне или лучше, чем признанные индустриальные модели семейства Llama. Однако главное преимущество xLSTM лежит в области экономики вычислений. Трансформеры имеют квадратичную вычислительную сложность относительно длины контекста, тогда как у xLSTM она строго линейная. Заменив вычислительно тяжелую квадратичную часть на линейную рекуррентную структуру, команда Хохрайтера добилась поразительных результатов:

* xLSTM работает быстрее, чем FlashAttention — самый оптимизированный и быстрый метод ускорения трансформеров на GPU.
* Достигается это за счет разбиения вычислений на мелкие блоки (chunks), которые идеально утилизируют архитектуру графического чипа, избегая жестких ограничений единого монолитного блока FlashAttention.
* Энергоэффективность и скорость работы xLSTM проявляются как на этапе обучения, так и в процессе инференса (генерации ответов пользователям).

По оценке Хохрайтера, там, где трансформер обрабатывает 100 токенов, xLSTM за то же время способен выдать 10 000 токенов. Это делает технологию идеальным кандидатом для работы на пограничных устройствах (Edge AI) и смартфонах, где физический размер батарей строго ограничен.

## 🤖 Стартап NXAI и промышленный ИИ нового поколения
[[JUMP:20:45]]

Чтобы коммерциализировать технологию и доказать её жизнеспособность, в декабре прошлого года Хохрайтер основал компанию NXAI. На академической базе университета в Линце проводить подобные исследования было невозможно из-за нехватки вычислительных мощностей. Привлеченный стартовый частный капитал позволил в первые же месяцы инвестировать 10 миллионов евро исключительно в покупку вычислительного времени для проверки гипотез xLSTM. Хохрайтер признается, что с оригинальным LSTM он не заработал «ни цента», поскольку все права ушли корпорациям, но в NXAI вся интеллектуальная собственность (IP) защищена и принадлежит компании.

Несмотря на успехи 7B-модели в тестах на понимание текста, Хохрайтер прямо заявляет, что язык не является главной целью для NXAI. Языковые модели — это перенасыщенный рынок, который для большинства компаний представляет интерес лишь в качестве PR или клиентской поддержки, но не приносит базовой прибыли. Основная ставка NXAI делается на индустриальный ИИ и робототехнику.

Трансформеры физически не могут эффективно управлять роботами в реальном времени из-за непредсказуемого времени отклика и огромных требований к оборудованию. У xLSTM здесь два критических преимущества:

1.  **Фиксированный и предсказуемый объем памяти.** Его можно заранее аппаратно адаптировать под скромные чипы, установленные на борту робота или дрона.
2.  **Высокая скорость отклика.** Модель гарантирует стабильную работу в режиме жесткого реального времени (real-time control).

Ученый подтвердил, что крупные автомобильные компании уже ведут переговоры с NXAI: для беспилотных автомобилей критически важно мгновенно реагировать на дорожную обстановку, не истощая при этом бортовой аккумулятор громоздкими ИИ-вычислениями.

Вторым важнейшим направлением (pillar) стартапа NXAI является «ИИ для симуляций» (AI for simulation). Традиционные численные методы симуляций физических процессов пасуют, когда количество частиц или узлов сетки доходит до сотен миллионов — математический аппарат становится неподъемным. ИИ от NXAI способен ускорить эти процессы в 1000 и даже в 100 000 раз за счет распознавания макроструктур. 

> «Когда вы бросаете снежок, вам не нужно симулировать движение каждой отдельной снежинки. Достаточно симулировать весь шар как единое целое», — объясняет Хохрайтер.

Такой подход применим в пищевой промышленности (анализ движения сыпучих материалов в бункерах) и металлургии. В Линце расположено гигантское сталелитейное производство, где классическое моделирование доменных печей на атомарном уровне невозможно, но макро-модели ИИ успешно справляются с задачей.

## 🔮 Будущее ИИ: кризис данных, мультимодальность и логическое мышление
[[JUMP:33:46]]

Анализируя глобальные тренды, Хохрайтер соглашается с тезисом Ильи Суцкевера о том, что эпоха слепого экстенсивного масштабирования ИИ за счет простого увеличения текстовых данных подходит к концу. Человечество буквально исчерпало все доступные текстовые массивы в мире, включая китайские и японские источники. Попытки обучать нейросети на текстах, сгенерированных другими нейросетями, ученый считает тупиковыми, так как это не приносит новой информации, а лишь переупаковывает старую.

Выход из этого тупика Хохрайтер видит в подходе, который активно продвигает глава ИИ-направления Meta Ян Лекун: сбор данных напрямую из физического мира через сенсоры, видеопотоки, аудиосигналы и тактильные датчики (haptic sensors). Архитектура xLSTM изначально мультимодальна и может беспрепятственно обучаться на таких непрерывных потоках информации.

Большой потенциал Хохрайтер видит и в изменении парадигмы обучения роботов. Сейчас программирование промышленного манипулятора под новую деталь обходится малому бизнесу дороже, чем наем ручного труда. Благодаря долгой контекстной памяти xLSTM, робот на базе этой архитектуры сможет обучаться «на лету» непосредственно в контексте (in-context learning). Оператору достаточно будет показать человеку-роботу 2–3 примера того, как закручивать деталь, и робот мгновенно адаптирует базовую ИИ-модель под конкретное окружение без опасного и долгого переобучения центральных весов сети.

Комментируя новые разработки OpenAI (такие как модель o1 / Strawberry), Хохрайтер отмечает, что индустрия смещается от ускорения обучения к усложнению инференса — когда модели дают время «подумать» и взвесить варианты перед выдачей ответа. Поскольку xLSTM обладает колоссальным преимуществом в скорости и экономичности генерации токенов, Хохрайтер выражает полную уверенность, что его архитектура окажется незаменимой в создании систем глубокого логического рассуждения. Вся кодовая база проекта выложена в открытый доступ, и ученый призывает мировое ИИ-сообщество активно включаться в развитие xLSTM-экосистемы.