# Почему нейросети «близоруки»: Федерико Барберо о фундаментальных изъянах внимания

Источник: https://www.youtube.com/watch?v=FAspMnu4Rt0
Канал: Machine Learning Street Talk
Опубликовано: 08.03.2025

---

Новое исследование проливает свет на фундаментальные ограничения архитектуры трансформеров, которые лежат в основе современных больших языковых моделей (LLM). В беседе с Тимом Скарфом на канале Machine Learning Street Talk исследователь Федерико Барберо из Оксфордского университета и лаборатории Tufa Labs объясняет, почему нейросети «теряют зрение» при работе с длинными последовательностями и как математические свойства внимания ограничивают их способность к логическому выводу.

## 👓 Почему трансформерам «нужны очки»?
[[JUMP:00:41]]

Название статьи Федерико Барберо «Трансформерам нужны очки!» (Transformers Need Glasses!) родилось из наблюдения, что модели становятся «близорукими» по мере роста контекста. По словам Барберо, трансформеры катастрофически плохо справляются с обнаружением или копированием даже одного конкретного токена, если он находится в определенном месте длинной последовательности [01:08]. 

Ключевой эксперимент, проведенный командой исследователей, наглядно демонстрирует эту проблему:

*   Модели давали длинную последовательность единиц, заканчивающуюся нулем (1, 1, 1... 0).
*   Задача заключалась в тривиальном копировании последнего элемента.
*   При достижении определенной длины даже мощные модели, такие как Gemini, начинали ошибаться и выдавать «1» вместо «0» [04:46].

Барберо утверждает, что это происходит из-за «репрезентативного коллапса» (representational collapse): представления двух разных последовательностей в скрытом пространстве модели становятся настолько близкими, что аппаратная точность компьютера (floating point precision) перестает их различать [03:00]. В итоге модель буквально «видит» одинаковые данные там, где они различаются.

## 📉 Механика «схлопывания» информации и смещение к началу
[[JUMP:05:50]]

Существует распространенное мнение о «предвзятости новизны» (recency bias) — идее о том, что нейросети лучше помнят то, что было сказано только что. Однако Барберо и его коллеги обнаружили обратное: на структурном уровне трансформеры имеют врожденное механистическое смещение к началу последовательности [06:18].

Причины этого кроются в топологии сети:

1.  **Каузальное маскирование:** В процессе обучения модели могут смотреть только назад. Это создает нижнетреугольную матрицу внимания [08:59].
2.  **Количество путей:** У токенов в начале последовательности гораздо больше «путей» распространения информации через слои самовнимания к финальному предсказанию, чем у последних токенов [08:31].
3.  **Спектральный анализ:** Барберо объясняет, что с точки зрения линейной алгебры применение множества слоев внимания действует как сжимающее отображение (contraction). В пределе информация «смешивается» так сильно, что доминировать остается только самый первый токен [18:49].

По мнению гостя, это объясняет известный «U-образный изгиб» качества работы с контекстом: модели хорошо помнят начало (из-за механики путей) и конец (потому что их так обучили), но полностью теряют «середину» [07:01].

## 🧪 Ошибка в 100 единиц: почему нейросети не умеют считать
[[JUMP:35:43]]

Один из самых ярких результатов работы Барберо связан с задачей суммирования. Исследователи просили модель сложить единицы (1+1+1...) разное количество раз [37:04]. 

*   До 20 итераций модели справлялись относительно неплохо.
*   После определенного порога ответы становились случайными.
*   При очень длинных последовательностях модели начинали подозрительно часто выдавать число **100** в качестве ответа [37:33].

Барберо считает, что это доказывает отсутствие реальных алгоритмов внутри LLM. Вместо выполнения математических операций модели используют «набор эвристик» (bag of heuristics) [38:02]. Число 100 появляется просто потому, что оно кажется «правдоподобным» и часто встречается в обучающей выборке для больших сумм.

Для описания этого феномена Барберо использует термин **субитизация** (subitizing) — способность людей (и детей) мгновенно определять количество предметов без пересчета, если их мало (например, 3-4 яблока) [38:42]. По его мнению, LLM «субитизируют» на стероидах: они выдают грубые оценки вместо точных вычислений, потому что механически не могут удержать точное количество в своих представлениях.

## 🏗️ Квантование как приговор для точности
[[JUMP:30:12]]

Проблема «близорукости» усугубляется современными методами оптимизации, такими как квантование (перевод весов из 16-битных чисел в 8, 4 или даже 2 бита). 

*   Барберо подчеркивает, что если в высокой точности (fp16) две последовательности еще можно было различить по едва заметной разнице в векторах, то при квантовании они гарантированно превращаются в одну и ту же точку [31:08].
*   Это делает ошибки копирования и счета «катастрофическими» и неизбежными на аппаратном уровне [31:24].

На аргумент некоторых скептиков (например, Лайрона Бенцуvi) о том, что моделям просто нужно «дать инструменты» (калькулятор, Python-интерпретатор), Барберо возражает: чтобы эффективно использовать инструмент, модель должна сначала надежно скопировать данные в этот инструмент. Если она ошибается при простом копировании цифр в функцию, никакой внешний инструмент не поможет [32:52].

## ♟️ Шахматы, интуиция и природа мышления
[[JUMP:51:02]]

В завершение беседы участники обсудили, можно ли считать работу LLM «рассуждением» (reasoning). Барберо склоняется к тому, что определение этого термина слишком расплывчато [48:48]. Он приводит аналогию с шахматами:

*   Гроссмейстеры отличаются от новичков не объемом памяти, а способностью к «сжатому представлению» мира [57:16].
*   Для профи шахматная позиция — это не 32 отдельные фигуры, а знакомые структуры (например, фианкетто или структура сицилианской защиты) [57:49].
*   Это сжатие освобождает «вычислительные мощности» мозга для поиска гениальных ходов [59:18].

Барберо полагает, что LLM работают схожим образом — через накопление статистических паттернов. Однако он предостерегает от «шовинизма рассуждений», когда мы считаем человеческие озарения магией, а аналогичные по функционалу действия машин — простой памятью [55:31]. 

Будущее ИИ гость видит в гибридных (нейросимволических) системах. Идеальная модель должна сочетать в себе гибкость языка с жесткими специализированными модулями — например, отдельным «математическим блоком» или «шахматным движком», которые не подвержены репрезентативному коллапсу [46:55].