Почему нейросети «близоруки»: Федерико Барберо о фундаментальных изъянах внимания

Новое исследование проливает свет на фундаментальные ограничения архитектуры трансформеров, которые лежат в основе современных больших языковых моделей (LLM). В беседе с Тимом Скарфом на канале Machine Learning Street Talk исследователь Федерико Барберо из Оксфордского университета и лаборатории Tufa Labs объясняет, почему нейросети «теряют зрение» при работе с длинными последовательностями и как математические свойства внимания ограничивают их способность к логическому выводу.

👓 Почему трансформерам «нужны очки»? 0:41

Название статьи Федерико Барберо «Трансформерам нужны очки!» (Transformers Need Glasses!) родилось из наблюдения, что модели становятся «близорукими» по мере роста контекста. По словам Барберо, трансформеры катастрофически плохо справляются с обнаружением или копированием даже одного конкретного токена, если он находится в определенном месте длинной последовательности .

Ключевой эксперимент, проведенный командой исследователей, наглядно демонстрирует эту проблему:

Модели давали длинную последовательность единиц, заканчивающуюся нулем (1, 1, 1... 0).
Задача заключалась в тривиальном копировании последнего элемента.
При достижении определенной длины даже мощные модели, такие как Gemini, начинали ошибаться и выдавать «1» вместо «0» .

Барберо утверждает, что это происходит из-за «репрезентативного коллапса» (representational collapse): представления двух разных последовательностей в скрытом пространстве модели становятся настолько близкими, что аппаратная точность компьютера (floating point precision) перестает их различать . В итоге модель буквально «видит» одинаковые данные там, где они различаются.

📉 Механика «схлопывания» информации и смещение к началу 5:50

Существует распространенное мнение о «предвзятости новизны» (recency bias) — идее о том, что нейросети лучше помнят то, что было сказано только что. Однако Барберо и его коллеги обнаружили обратное: на структурном уровне трансформеры имеют врожденное механистическое смещение к началу последовательности .

Причины этого кроются в топологии сети:

Каузальное маскирование: В процессе обучения модели могут смотреть только назад. Это создает нижнетреугольную матрицу внимания .
Количество путей: У токенов в начале последовательности гораздо больше «путей» распространения информации через слои самовнимания к финальному предсказанию, чем у последних токенов .
Спектральный анализ: Барберо объясняет, что с точки зрения линейной алгебры применение множества слоев внимания действует как сжимающее отображение (contraction). В пределе информация «смешивается» так сильно, что доминировать остается только самый первый токен .

По мнению гостя, это объясняет известный «U-образный изгиб» качества работы с контекстом: модели хорошо помнят начало (из-за механики путей) и конец (потому что их так обучили), но полностью теряют «середину» .

🧪 Ошибка в 100 единиц: почему нейросети не умеют считать 35:43

Один из самых ярких результатов работы Барберо связан с задачей суммирования. Исследователи просили модель сложить единицы (1+1+1...) разное количество раз .

До 20 итераций модели справлялись относительно неплохо.
После определенного порога ответы становились случайными.
При очень длинных последовательностях модели начинали подозрительно часто выдавать число 100 в качестве ответа .

Барберо считает, что это доказывает отсутствие реальных алгоритмов внутри LLM. Вместо выполнения математических операций модели используют «набор эвристик» (bag of heuristics) . Число 100 появляется просто потому, что оно кажется «правдоподобным» и часто встречается в обучающей выборке для больших сумм.

Для описания этого феномена Барберо использует термин субитизация (subitizing) — способность людей (и детей) мгновенно определять количество предметов без пересчета, если их мало (например, 3-4 яблока) . По его мнению, LLM «субитизируют» на стероидах: они выдают грубые оценки вместо точных вычислений, потому что механически не могут удержать точное количество в своих представлениях.

🏗️ Квантование как приговор для точности 30:12

Проблема «близорукости» усугубляется современными методами оптимизации, такими как квантование (перевод весов из 16-битных чисел в 8, 4 или даже 2 бита).

Барберо подчеркивает, что если в высокой точности (fp16) две последовательности еще можно было различить по едва заметной разнице в векторах, то при квантовании они гарантированно превращаются в одну и ту же точку .
Это делает ошибки копирования и счета «катастрофическими» и неизбежными на аппаратном уровне .

На аргумент некоторых скептиков (например, Лайрона Бенцуvi) о том, что моделям просто нужно «дать инструменты» (калькулятор, Python-интерпретатор), Барберо возражает: чтобы эффективно использовать инструмент, модель должна сначала надежно скопировать данные в этот инструмент. Если она ошибается при простом копировании цифр в функцию, никакой внешний инструмент не поможет .

♟️ Шахматы, интуиция и природа мышления 51:02

В завершение беседы участники обсудили, можно ли считать работу LLM «рассуждением» (reasoning). Барберо склоняется к тому, что определение этого термина слишком расплывчато . Он приводит аналогию с шахматами:

Гроссмейстеры отличаются от новичков не объемом памяти, а способностью к «сжатому представлению» мира .
Для профи шахматная позиция — это не 32 отдельные фигуры, а знакомые структуры (например, фианкетто или структура сицилианской защиты) .
Это сжатие освобождает «вычислительные мощности» мозга для поиска гениальных ходов .

Барберо полагает, что LLM работают схожим образом — через накопление статистических паттернов. Однако он предостерегает от «шовинизма рассуждений», когда мы считаем человеческие озарения магией, а аналогичные по функционалу действия машин — простой памятью .

Будущее ИИ гость видит в гибридных (нейросимволических) системах. Идеальная модель должна сочетать в себе гибкость языка с жесткими специализированными модулями — например, отдельным «математическим блоком» или «шахматным движком», которые не подвержены репрезентативному коллапсу .