В интервью для популярного ИТ-канала Machine Learning Street Talk исследователь Тимоти Нгуен обсуждает свою новую научную работу, посвященную механизмам работы больших языковых моделей. На примере контролируемого эксперимента с синтетическим датасетом Tiny Stories он анализирует, можно ли описать предсказания современных трансформеров через классические статистические шаблоны — н-граммы. Полученные им результаты не только проливают свет на природу «стохастического попугая», но и предлагают практический инструментарий для разработчиков нейросетей.
🧩 Трансформер как «н-грамм на стероидах»: суть эксперимента 2:48
Тимоти Нгуен, в прошлом академический математик с докторской степенью от MIT, а ныне исследователь машинного обучения в Google DeepMind, задался вопросом: как именно трансформеры используют окружающий контекст при прогнозировании следующего токена? Для этого он использовал в своей работе "Understanding Transformers via engram statistics" специализированный датасет Tiny Stories. Этот набор данных состоит из простых детских сказок, сгенерированных искусственно, но сохраняющих реалистичную структуру естественного языка.
Чтобы проиллюстрировать проблему, Нгуен приводит следующий абстрактный пример. Допустим, в процессе инференса трансформер получает на вход фразу: «Once upon a time there was a...» («Давным-давно жил-был...»). В обучающей выборке эта полная строка из семи токенов всегда завершается словом «bear» (медведь). Однако, если сократить контекст до трех последних токенов — «there was a» — в данных могут с равной вероятностью (например, по 100 раз каждое) встретиться три разных животных: лев, тигр и медведь.
При генерации функция softmax превращает сырые логиты нейросети в вероятностное распределение. Если бы модель опиралась только на длинный контекст, она бы выдала однозначное предсказание (one-hot distribution) на слове «bear». Если бы она брала в расчет лишь короткий фрагмент, распределение вероятностей между львом, тигром и медведем было бы равномерным (uniform).
По словам Нгуена, этот процесс можно разделить на две фундаментальные подзадачи:
- Форма (Form): Определение геометрии распределения вероятностей (будет ли это жесткий пик на одном слове или размытое плато между несколькими вариантами).
- Выбор (Selection): Механизм, с помощью которого трансформер решает, на какую именно длину контекста или статистику из обучающих данных ему опираться в данный момент.
📊 Хэш-таблица шаблонов и точность в 78% 7:22
Для проверки своей гипотезы исследователь построил систему сопоставления синтаксических шаблонов (template matching), напоминающую классические методы обработки естественного языка (NLP) прошлых десятилетий. Он извлек из датасета Tiny Stories все возможные варианты н-грамм (от 1-грамм до 7-грамм), сформировав своеобразную хэш-таблицу, содержащую порядка 400 различных статистических правил. Каждое правило в этой таблице представляет собой готовый вектор вероятностей для следующего токена.
Во время работы трансформера Нгуен применял процедуру оптимизации — поиск ближайшего соседа (nearest neighbor lookup). Он брал выходной вектор вероятностей трансформера и сравнивал его со всеми 400 векторами шаблонов из хэш-таблицы, чтобы найти максимально близкий по геометрии вариант.
Эксперимент принес примечательный результат:
- В 78% случаев оптимальное статическое правило из хэш-таблицы выдает в точности то же самое топовое предсказание (top-1 prediction), что и сложный трансформер.
Чтобы обосновать значимость этой цифры, Нгуен приводит параметры эксперимента. В качестве подопытного выступал трансформер со 150 миллионами параметров. На проверочной выборке эта модель показала величину потерь в 1.1 ната (nats) и точность top-1 на уровне 69%. Тот факт, что точность сопоставления с хэш-таблицей (78%) оказалась выше собственной точности модели на реальных тестовых данных (69%), доказывает, по мнению исследователя, высокую репрезентативность предложенного описания.
🧠 Философия ИИ: Описание против Объяснения 12:38
Ведущий подкаста Тим Скарф предположил, что столь высокий процент совпадений позволяет утверждать, что поведение трансформера можно почти полностью объяснить обычным сопоставлением шаблонов. Однако Нгуен категорически призывает разделять два научных понятия:
«Моя процедура описывает предсказания трансформера, но не объясняет их. Описание отвечает на вопрос ”что”, а объяснение — на вопросы ”как” и ”почему”.»
Для иллюстрации ученый приводит метеорологическую аналогию: фраза «на улице идет дождь» — это описание факта. Объяснением же является физическая модель преципитации, конденсации влаги и термодинамики. В контексте нейросетей полноценным объяснением стал бы детальный разбор внутренних контуров (circuits) и весов модели, доказывающий, что трансформер физически реализует алгоритм н-грамм. Нгуен же сознательно исследовал модель как «черный ящик», фиксируя лишь совпадение выходных данных.
Тим Скарф дополнил этот тезис астрономической аналогией: феномен восхода и захода солнца описывается одинаково, но может иметь два принципиально разных объяснения — геоцентрическое (солнце вращается вокруг Земли) и гелиоцентрическое (Земля вращается вокруг солнца).
Собеседники коснулись фундаментальной философской проблемы синтаксиса и семантики, вспомнив знаменитый мысленный эксперимент Джона Сёрля «Китайская комната». По мнению Скарфа, трансформер оперирует исключительно синтаксической обработкой, и из этой склеенной, запутанной структуры невозможно извлечь исходную семантику (смысл), заложенную авторами текстов. Нгуен согласился с уместностью аналогии, но добавил, что для него самого пока остается открытым вопрос, насколько статистические методы принципиально несовместимы с истинным пониманием сути вещей.
📈 Поиск переобучения без валидационной выборки 18:54
Вторым важным практическим результатом работы Тимоти Нгуена стало открытие нового метода детекции переобучения (overfitting). В классическом машинном обучении для этого всегда требуется отложенный валидационный набор данных (holdout set): строятся графики функции потерь для обучения и теста, и в точке, где тестовый лосс начинает расти, формируя U-образную кривую, фиксируется переобучение.
Нгуен обнаружил, что этот U-образный график можно увидеть, анализируя исключительно обучающую выборку через призму коротких н-грамм.
Механизм этого явления устроен следующим образом:
- Чтобы минимизировать общую ошибку на обучающем множестве до экстремальных значений, трансформер вынужден запоминать уникальные длинные контексты (например, цепочки из 50 токенов, которые однозначно идентифицируют конкретную статью в Википедии).
- Модель подгоняет свои веса так, чтобы выдавать жесткое (one-hot) распределение на тот единственный токен, который следовал за этой 50-токенной цепочкой в обучающем тексте.
- Из-за этой чрезмерной специализации и погони за нулевым лоссом трансформер безвозвратно теряет способность делать гибкие, робастные предсказания на основе более коротких фрагментов.
Нгуен провел эксперимент с моделью на 1 миллиард параметров, которая была избыточна для Tiny Stories и обучалась в течение 10 эпох. Оценивая лосс модели в процессе обучения исключительно на ультракоротких контекстах (от 1 до 7 токенов), он зафиксировал, что кривые ошибок на этих коротких фрагментах начинают ухудшаться и ползти вверх, идеально синхронизируясь с классической кривой переобучения на отложенном тест-сете. Таким образом, ухудшение метрик на коротких н-граммах внутри тренировочного сета служит явным индикатором деградации обобщающей способности модели.
📐 Математика метрик: почему L1 лучше, чем KL-дивергенция 26:32
В финальной части дискуссии исследователи затронули математические нюансы измерения расстояний между распределениями вероятностей. В ходе поиска оптимального шаблона из хэш-таблицы Нгуен использовал так называемое вариационное расстояние (variational distance), которое математически представляет собой половину расстояния $L_1$ (сумму абсолютных модулей разностей векторов).
Ученый пояснил, что этот выбор был продиктован сугубо практическими соображениями:
- Стандартно применяемая в ИИ расходимость Кульбака — Лейблера (KL-дивергенция) в данном сценарии оказывается неприменимой, так как она является неограниченной.
- Если один из сравниваемых векторов шаблона имеет нулевую вероятность (отсутствие поддержки) для какого-то токена, алгоритм сталкивается с делением на ноль под знаком логарифма, что делает вычисления невозможными.
Вариационное расстояние ($L_1$), напротив, ведет себя математически стабильно и предсказуемо. Для проверки устойчивости выводов Нгуен также продублировал эксперименты, используя норму $L_\infty$ (где берется максимальный модуль разности среди элементов) и норму $L_2$. Качественные результаты и общие выводы исследования при смене метрик не изменились, что подтверждает фундаментальный характер обнаруженных статистических закономерностей.
В планах исследователя на будущее — попытаться перейти от абстрактного внешнего описания «черного ящика» к интерполяции внутренних механизмов трансформеров, чтобы понять, как эти статистические шаблоны соотносятся с процессами абстракции и логических рассуждений внутри нейросети.