Новое исследование проливает свет на фундаментальные ограничения архитектуры трансформеров, которые лежат в основе современных больших языковых моделей (LLM). В беседе с Тимом Скарфом на канале Machine Learning Street Talk исследователь Федерико Барберо из Оксфордского университета и лаборатории Tufa Labs объясняет, почему нейросети «теряют зрение» при работе с длинными последовательностями и как математические свойства внимания ограничивают их способность к логическому выводу.
👓 Почему трансформерам «нужны очки»? 0:41
Название статьи Федерико Барберо «Трансформерам нужны очки!» (Transformers Need Glasses!) родилось из наблюдения, что модели становятся «близорукими» по мере роста контекста. По словам Барберо, трансформеры катастрофически плохо справляются с обнаружением или копированием даже одного конкретного токена, если он находится в определенном месте длинной последовательности .
Ключевой эксперимент, проведенный командой исследователей, наглядно демонстрирует эту проблему:
- Модели давали длинную последовательность единиц, заканчивающуюся нулем (1, 1, 1... 0).
- Задача заключалась в тривиальном копировании последнего элемента.
- При достижении определенной длины даже мощные модели, такие как Gemini, начинали ошибаться и выдавать «1» вместо «0» .
Барберо утверждает, что это происходит из-за «репрезентативного коллапса» (representational collapse): представления двух разных последовательностей в скрытом пространстве модели становятся настолько близкими, что аппаратная точность компьютера (floating point precision) перестает их различать . В итоге модель буквально «видит» одинаковые данные там, где они различаются.
📉 Механика «схлопывания» информации и смещение к началу 5:50
Существует распространенное мнение о «предвзятости новизны» (recency bias) — идее о том, что нейросети лучше помнят то, что было сказано только что. Однако Барберо и его коллеги обнаружили обратное: на структурном уровне трансформеры имеют врожденное механистическое смещение к началу последовательности .
Причины этого кроются в топологии сети:
- Каузальное маскирование: В процессе обучения модели могут смотреть только назад. Это создает нижнетреугольную матрицу внимания .
- Количество путей: У токенов в начале последовательности гораздо больше «путей» распространения информации через слои самовнимания к финальному предсказанию, чем у последних токенов .
- Спектральный анализ: Барберо объясняет, что с точки зрения линейной алгебры применение множества слоев внимания действует как сжимающее отображение (contraction). В пределе информация «смешивается» так сильно, что доминировать остается только самый первый токен .
По мнению гостя, это объясняет известный «U-образный изгиб» качества работы с контекстом: модели хорошо помнят начало (из-за механики путей) и конец (потому что их так обучили), но полностью теряют «середину» .
🧪 Ошибка в 100 единиц: почему нейросети не умеют считать 35:43
Один из самых ярких результатов работы Барберо связан с задачей суммирования. Исследователи просили модель сложить единицы (1+1+1...) разное количество раз .
- До 20 итераций модели справлялись относительно неплохо.
- После определенного порога ответы становились случайными.
- При очень длинных последовательностях модели начинали подозрительно часто выдавать число 100 в качестве ответа .
Барберо считает, что это доказывает отсутствие реальных алгоритмов внутри LLM. Вместо выполнения математических операций модели используют «набор эвристик» (bag of heuristics) . Число 100 появляется просто потому, что оно кажется «правдоподобным» и часто встречается в обучающей выборке для больших сумм.
Для описания этого феномена Барберо использует термин субитизация (subitizing) — способность людей (и детей) мгновенно определять количество предметов без пересчета, если их мало (например, 3-4 яблока) . По его мнению, LLM «субитизируют» на стероидах: они выдают грубые оценки вместо точных вычислений, потому что механически не могут удержать точное количество в своих представлениях.
🏗️ Квантование как приговор для точности 30:12
Проблема «близорукости» усугубляется современными методами оптимизации, такими как квантование (перевод весов из 16-битных чисел в 8, 4 или даже 2 бита).
- Барберо подчеркивает, что если в высокой точности (fp16) две последовательности еще можно было различить по едва заметной разнице в векторах, то при квантовании они гарантированно превращаются в одну и ту же точку .
- Это делает ошибки копирования и счета «катастрофическими» и неизбежными на аппаратном уровне .
На аргумент некоторых скептиков (например, Лайрона Бенцуvi) о том, что моделям просто нужно «дать инструменты» (калькулятор, Python-интерпретатор), Барберо возражает: чтобы эффективно использовать инструмент, модель должна сначала надежно скопировать данные в этот инструмент. Если она ошибается при простом копировании цифр в функцию, никакой внешний инструмент не поможет .
♟️ Шахматы, интуиция и природа мышления 51:02
В завершение беседы участники обсудили, можно ли считать работу LLM «рассуждением» (reasoning). Барберо склоняется к тому, что определение этого термина слишком расплывчато . Он приводит аналогию с шахматами:
- Гроссмейстеры отличаются от новичков не объемом памяти, а способностью к «сжатому представлению» мира .
- Для профи шахматная позиция — это не 32 отдельные фигуры, а знакомые структуры (например, фианкетто или структура сицилианской защиты) .
- Это сжатие освобождает «вычислительные мощности» мозга для поиска гениальных ходов .
Барберо полагает, что LLM работают схожим образом — через накопление статистических паттернов. Однако он предостерегает от «шовинизма рассуждений», когда мы считаем человеческие озарения магией, а аналогичные по функционалу действия машин — простой памятью .
Будущее ИИ гость видит в гибридных (нейросимволических) системах. Идеальная модель должна сочетать в себе гибкость языка с жесткими специализированными модулями — например, отдельным «математическим блоком» или «шахматным движком», которые не подвержены репрезентативному коллапсу .