Почему большие языковые модели теряют информацию в длинных текстах

Современные большие языковые модели демонстрируют впечатляющие результаты, однако их способность корректно обрабатывать длинные последовательности данных имеет фундаментальные скрытые ограничения. В глубоком интервью для канала Machine Learning Street Talk ведущий Тим Скарфе и исследователь Федерико Барберо обсуждают, почему архитектуре Transformers «нужны очки» и как математические особенности казуального внимания приводят к потере информации. В центре дискуссии — физические и графовые аналогии, природа машинного мышления и механизмы, из-за которых нейросети не способны справиться с простейшими задачами копирования и подсчета.

👓 Почему трансформерам нужны очки: феномен коллапса представлений 0:00

Федерико Барберо признается, что выбор столь эксцентричного названия для его научной работы был шутливым решением, однако за ним скрывается серьезная архитектурная проблема. Суть метафоры заключается в том, что по мере роста контекстного окна трансформеры начинают «плохо видеть» отдельные токены, особенно те, которые находятся в самом конце последовательности. Этот феномен тесно связан с концепцией коллапса представлений (representational collapse). Когда длина последовательности увеличивается, внутренние векторы состояний разных цепочек начинают математически сближаться.

В этот момент в силу вступают физические ограничения компьютерных вычислений. Поскольку машины обладают конечной числовой точностью (например, fp16), экстремальное сближение векторов приводит к тому, что они опускаются ниже порога чувствительности системы (machine precision). В результате две принципиально разные последовательности проецируются в одну и ту же точку скрытого пространства. Из-за этого модель неизбежно совершает ошибку, будучи не в состоянии различить контексты.

Исследователь приводит пример тривиальной для человека задачи копирования: если подать на вход модели сверхдлинную строку из единиц, завершающуюся нулем, на определенном этапе трансформер (эксперименты проводились в том числе на мощных закрытых моделях вроде Gemini) сотрет этот ноль из своего «зрения» и выдаст на выходе единицу. Человек, по словам Барберо, никогда не ошибется в поиске последнего элемента, поскольку для этого не нужны вычисления — достаточно просто посмотреть на конец строки. Однако для ИИ эта операция становится непреодолимым барьером. К слову, Бенджамин Крозье, представляя новую цюрихскую исследовательскую лабораторию tufalabs.ai (которую он амбициозно называет «швейцарской версией DeepSeek»), отмечает, что именно эти фундаментальные проблемы с моделями типа o1 сейчас находятся в фокусе внимания индустрии.

🗺️ Топологические пути и каузальное смещение информации 5:50

В индустрии хорошо известен так называемый U-образный график качества извлечения информации (U-shaped curve), когда нейросеть успешно находит факты в начале и конце длинного текста, но теряет то, что находится посередине. Тим Скарфе отмечает, что у большинства пользователей есть ощущение «эффекта недавности» (recency bias), то есть ожидания, что модель должна лучше помнить самые свежие токены. Однако Федерико Барберо опровергает эту интуицию, заявляя, что механизмы трансформеров обладают врожденным структурным смещением в сторону начала последовательности.

Причина кроется в топологической структуре казуального маскирования (causal masking), используемого для эффективного авторегрессионного обучения. Маска заставляет матрицу внимания принимать вид нижней треугольной матрицы, блокируя возможность «смотреть в будущее». Тим Скарфе наглядно объясняет это через количество информационных путей: чем дальше токен находится в прошлом, тем больше альтернативных топологических маршрутов сквозь слои сети он может пройти до финального токена предсказания.

Механизмы влияния на контекст разделяются на два типа:

Механическое смещение: сама математика казуального внимания неумолимо сдвигает и удерживает информацию в начале последовательности.
Динамика обучения: поскольку модель обучают предсказывать следующий токен, градиенты заставляют её кратковременно фокусироваться на ближайшем окружении.

В результате середина текста, по мнению собеседников, оказывается «вымыта» из памяти модели, что идеально объясняет пресловутый эффект lost in the middle. Чтобы выжить в этой структуре, последний токен должен иметь колоссальный коэффициент самовнимания (self-attention), но из-за жесткого ограничения суммы коэффициентов (которая всегда равна единице) это подавляет его способность взаимодействовать с остальным контекстом.

🧱 Мост между графовыми сетями и физикой: over-squashing и теплопроводность 10:09

Федерико Барберо подчеркивает, что его исследование не возникло на пустом месте — оно перекидывает мост к теории графовых нейронных сетей (GNN). Его научный руководитель Майкл Бронштейн (Michael Bronstein) ранее детально изучал проблему избыточного сжатия (over-squashing) в графовых структурах. Аналогичные феномены угасания градиентов давно известны и для рекуррентных сетей (RNN).

Для математического описания этих процессов авторы используют аппарат спектральной теории графов и марковских цепей. Ключевой метрикой здесь выступает «время коммутирования» (commute time). Барберо предлагает представить случайное блуждание (random walk) на графе: если узел имеет пять связей, вероятность перехода на соседа равна $1/5$. Время коммутирования — это математическое ожидание количества шагов, необходимых частице, чтобы добраться из узла А в узел Б и вернуться обратно.

Этот процесс имеет прямую физическую аналогию. По словам ученого, графовые сверточные сети можно рассматривать как дискретизацию непрерывного уравнения теплопроводности (heat equations) на поверхностях. То, как тепло распространяется по физическому объекту, математически идентично тому, как информация перемешивается в слоях нейросети. В статье даже цитируется строчка из песни группы Muse о диссипации энергии, что, как шутит гость, было идеей соавтора Питера Величковича (Peter Veličković), создателя знаменитых графово-аттенционных сетей (GAT). Модификация связности графа коренным образом меняет способность сети передавать данные, и казуальная треугольная матрица трансформера — это пример крайне специфической, «сжимающей» топологии.

⚖️ Борьба противоположностей: сжатие внимания против расширения MLP 20:14

Если теория спектрального анализа треугольных матриц однозначно доказывает, что в пределе трансформер помнит только самый первый токен, то почему современные коммерческие модели с контекстом в 2 миллиона токенов вообще работают? Барберо объясняет это хрупким динамическим балансом внутри архитектуры. Внимание по своей природе является сжимающим отображением (contraction). Когда слой внимания обращается к 100 различным токенам, коэффициент для каждого падает примерно до $1/100$, пропорционально уменьшая норму векторов и уничтожая их уникальность.

Однако у трансформеров есть защитные механизмы:

Полносвязные слои (MLP): они обладают произвольной константой Липшица и могут выступать как экспансия (expansion), «накручивая ручку громкости» обратно и увеличивая норму векторов в 100 раз.
Резидуальные связи (residual connections): они помогают токам информации обходить сжимающие слои без потерь.

Более того, анализ внутренних состояний таких моделей, как Llama или Gemma, показывает удивительную аномалию: огромное количество голов внимания выполняют роль дорогостоящих холостых операций (no-ops). Они либо реализуют тривиальные диагональные матрицы, либо целиком фокусируются на техническом токене начала последовательности (BOS), норма которого близка к нулю. Гость предполагает, что модель идет на такие растраты вычислительной мощности осознанно — так она пытается защитить себя от «перемешивания» (over-mixing) и сохранить индивидуальность представлений. Это открывает гигантские перспективы для компрессии моделей: ведь если мы поймем природу этих «холостыхходов», мы сможем радикально уменьшить размер сетей.

Ситуацию катастрофически усугубляет современный тренд на квантование (quantization) до 4 бит. Если на высокой точности fp16 сжатые векторы еще балансируют на грани различимости, то жесткое урезание битности мгновенно схлопывает их под порог чувствительности, приводя к необратимому коллапсу вычислений.

🧮 Математика на эвристиках: почему ИИ заклинивает на числе 100 35:29

Ограниченность архитектуры наглядно проявляется в экспериментах с арифметикой. Авторы протестировали модели на простой задаче: просуммировать выражение вида $1+1+1...$ от 5 до 200 раз. Результаты оказались ошеломляющими: примерно до 20 итераций сеть справляется, затем начинает выдавать случайные числа, не кратные пяти, а при дальнейшем росте строки намертво заклинивает на числе 100.

Барберо ссылается на свежее исследование «Арифметика без алгоритмов» (Arithmetic without algorithms), подтверждающее, что LLM не реализуют строгие алгоритмы. Вместо этого они используют «набор эвристик» (bag of heuristics), хорошо работающих внутри обучающей выборки, но пасующих за ее пределами. Число 100 кажется модели наиболее правдоподобным и часто встречающимся «большим числом» для подобных запросов.

Собеседники сравнивают это с психологическим феноменом субитизации (subitizing) у детей, когда ребенок мгновенно оценивает количество предметов (например, пять яблок) «на глаз» по паттерну, не пересчитывая их поочередно. Модели оценивают объемы данных точно так же — грубо и интуитивно. Попытки исправить это с помощью цепочек рассуждений (Chain of Thought, CoT) провалились: при требовании разбивать подсчет на группы по 5 элементов модель быстро путается в собственных промежуточных шагах и снова скатывается в абсурдные ответы.

Что касается теоретических работ Виньялса (Vinyals), заявлявших о Тьюринг-полноте трансформеров, Барберо напоминает, что эти доказательства абстрактны и оторваны от реальности. Они требуют невыполнимых условий:

Использование «жесткого внимания» (hard attention), где коэффициенты строго равны 1 или 0.
Бесконечная точность вычислений или логарифмический рост памяти и разрядности по мере удлинения текста.

В реальном мире с фиксированной точностью fp16 или инт4 модель находится в самом низу иерархии автоматов Хомского, уступая даже старым рекуррентным сетям (RNN), которые математически способны реализовывать языки подсчета. Трио из трансформеров не способно к полноценной композициональности — замена «Мария любит Джона» на «Мария любит Джейн» рассыпается внутри распределенных нейронных контуров, лишенных свойства обратимости.

🧠 Что такое рассуждение: шахматы, гроссмейстеры и эпистемический поиск 48:20

В финале беседы Тим и Федерико углубляются в философию рассуждений. Барберо считает сам термин «рассуждение» (reasoning) крайне размытым. Программа на компьютере может идеально масштабироваться по длине, но можно ли назвать ее мыслящей? Люди тоже несовершенны: Барберо приводит в пример эксперимент проекта Numberphile, где толпа энтузиастов неделю вручную считала знаки числа Пи и все равно допустила ошибку в середине. Сортировка миллионного массива вручную также гарантированно приведет человека к сбою.

Тим Скарфе упоминает позицию Франсуа Шолле (François Chollet), который определяет интеллект не как заученный навык, а как эффективность приобретения новых знаний (knowledge acquisition efficiency). С этой точки зрения, обычный Stockfish не рассуждает, так как опирается на заложенные людьми статистические эвристики (например, не ставить коня на край доски). А вот система AlphaZero от DeepMind демонстрирует элементы мышления, порождая принципиально новые стратегические концепты (вроде агрессивного движения пешек), которые затем перенимают человеческие гроссмейстеры.

Сам Барберо, будучи страстным фанатом шахмат, предлагает иное объяснение феномена человеческой гениальности. Известный эксперимент показал, что шахматные мастера идеально воссоздают по памяти расстановку фигур, посмотрев на доску всего 20 секунд — но только если позиция взята из реальной партии. Если фигуры расставить хаотично, гроссмейстер помнит их не лучше любителя.

Это доказывает, что человеческий мозг силен не абстрактной логикой, а способностью к экстремальному сжатию информации. Видя структуру, мастер сжимает десятки позиций в один понятный паттерн (например, «фианкетто» или «сицилианская структура»). Озарение (flash of inspiration) и красивые тактические ходы рождаются лишь тогда, когда мозг за счет опыта сформировал настолько плотную и чистую репрезентацию мира, что смог полностью отсечь информационный шум. Для этого человеку, помимо тысяч часов практики, требуются банальные биологические условия: качественный сон, фокус и хорошее здоровье. Карл Фристон (Karl Friston) поэтично назвал этот процесс накопления структуры «эпистемическим фуражированием» (epistemic foraging) — эволюционным поиском крупиц знания в бесконечном океане хаоса.