Почему нейросети «близоруки»: Федерико Барберо о фундаментальных изъянах внимания

Machine Learning Street Talk 19,8 тыс. 1 ч 4 мин 08.03.2025
Главное

Новое исследование проливает свет на фундаментальные ограничения архитектуры трансформеров, которые лежат в основе современных больших языковых моделей (LLM). В беседе с Тимом Скарфом на канале Machine Learning Street Talk исследователь Федерико Барберо из Оксфордского университета и лаборатории Tufa Labs объясняет, почему нейросети «теряют зрение» при работе с длинными последовательностями и как математические свойства внимания ограничивают их способность к логическому выводу.

👓 Почему трансформерам «нужны очки»? 0:41

Название статьи Федерико Барберо «Трансформерам нужны очки!» (Transformers Need Glasses!) родилось из наблюдения, что модели становятся «близорукими» по мере роста контекста. По словам Барберо, трансформеры катастрофически плохо справляются с обнаружением или копированием даже одного конкретного токена, если он находится в определенном месте длинной последовательности .

Ключевой эксперимент, проведенный командой исследователей, наглядно демонстрирует эту проблему:

Барберо утверждает, что это происходит из-за «репрезентативного коллапса» (representational collapse): представления двух разных последовательностей в скрытом пространстве модели становятся настолько близкими, что аппаратная точность компьютера (floating point precision) перестает их различать . В итоге модель буквально «видит» одинаковые данные там, где они различаются.

📉 Механика «схлопывания» информации и смещение к началу 5:50

Существует распространенное мнение о «предвзятости новизны» (recency bias) — идее о том, что нейросети лучше помнят то, что было сказано только что. Однако Барберо и его коллеги обнаружили обратное: на структурном уровне трансформеры имеют врожденное механистическое смещение к началу последовательности .

Причины этого кроются в топологии сети:

  1. Каузальное маскирование: В процессе обучения модели могут смотреть только назад. Это создает нижнетреугольную матрицу внимания .
  2. Количество путей: У токенов в начале последовательности гораздо больше «путей» распространения информации через слои самовнимания к финальному предсказанию, чем у последних токенов .
  3. Спектральный анализ: Барберо объясняет, что с точки зрения линейной алгебры применение множества слоев внимания действует как сжимающее отображение (contraction). В пределе информация «смешивается» так сильно, что доминировать остается только самый первый токен .

По мнению гостя, это объясняет известный «U-образный изгиб» качества работы с контекстом: модели хорошо помнят начало (из-за механики путей) и конец (потому что их так обучили), но полностью теряют «середину» .

🧪 Ошибка в 100 единиц: почему нейросети не умеют считать 35:43

Один из самых ярких результатов работы Барберо связан с задачей суммирования. Исследователи просили модель сложить единицы (1+1+1...) разное количество раз .

Барберо считает, что это доказывает отсутствие реальных алгоритмов внутри LLM. Вместо выполнения математических операций модели используют «набор эвристик» (bag of heuristics) . Число 100 появляется просто потому, что оно кажется «правдоподобным» и часто встречается в обучающей выборке для больших сумм.

Для описания этого феномена Барберо использует термин субитизация (subitizing) — способность людей (и детей) мгновенно определять количество предметов без пересчета, если их мало (например, 3-4 яблока) . По его мнению, LLM «субитизируют» на стероидах: они выдают грубые оценки вместо точных вычислений, потому что механически не могут удержать точное количество в своих представлениях.

🏗️ Квантование как приговор для точности 30:12

Проблема «близорукости» усугубляется современными методами оптимизации, такими как квантование (перевод весов из 16-битных чисел в 8, 4 или даже 2 бита).

На аргумент некоторых скептиков (например, Лайрона Бенцуvi) о том, что моделям просто нужно «дать инструменты» (калькулятор, Python-интерпретатор), Барберо возражает: чтобы эффективно использовать инструмент, модель должна сначала надежно скопировать данные в этот инструмент. Если она ошибается при простом копировании цифр в функцию, никакой внешний инструмент не поможет .

♟️ Шахматы, интуиция и природа мышления 51:02

В завершение беседы участники обсудили, можно ли считать работу LLM «рассуждением» (reasoning). Барберо склоняется к тому, что определение этого термина слишком расплывчато . Он приводит аналогию с шахматами:

Барберо полагает, что LLM работают схожим образом — через накопление статистических паттернов. Однако он предостерегает от «шовинизма рассуждений», когда мы считаем человеческие озарения магией, а аналогичные по функционалу действия машин — простой памятью .

Будущее ИИ гость видит в гибридных (нейросимволических) системах. Идеальная модель должна сочетать в себе гибкость языка с жесткими специализированными модулями — например, отдельным «математическим блоком» или «шахматным движком», которые не подвержены репрезентативному коллапсу .

💬 Цитаты

«В пределе, по мере роста длины токенов, трансформер будет уделять внимание только самому первому токену.»

Федерико Барберо 17:38

«Модели не реализуют алгоритмы. Они реализуют набор эвристик, которые достаточно хороши, чтобы соответствовать обучающим данным.»

Федерико Барберо 37:46

«Если вы не можете даже надежно скопировать данные в инструмент, то наличие самого инструмента вам не поможет.»

Федерико Барберо 32:36
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Репрезентативный коллапс
Явление, при котором векторы состояний разных последовательностей становятся настолько похожими, что модель перестает их различать.
Каузальное маскирование
Метод обучения трансформеров, при котором текущий токен может «видеть» только предыдущие элементы, но не последующие.
Субитизация
Способность мгновенно распознавать количество объектов без их последовательного пересчета.
Квантование
Процесс снижения точности весов нейросети (например, с 16 бит до 4 бит) для уменьшения размера модели и ускорения работы.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Transformers Large Language Models Federico Barbero representational collapse self-attention