Языковые модели как универсальные вычислители: разбор исследования от Янника Кильчера

В видеоролике исследователь искусственного интеллекта Янник Кильчер (Yannic Kilcher) подробно разбирает научную работу «Pretrained Transformers as Universal Computation Engines». Авторы исследования доказывают, что языковые модели на базе архитектуры Transformers способны выступать в роли универсальных вычислительных движков для совершенно других модальностей данных. Замораживая до 99.9% весов модели и настраивая лишь базовые периферийные слои, ученые смогли адаптировать текстовую модель для решения задач компьютерного зрения, логики и биоинформатики без полноценного переобучения.

🧠 Суть эксперимента и архитектурный подход 0:00

В центре внимания статьи находится радикальный эксперимент по переносу обучения (transfer learning). Авторы берут стандартную архитектуру Transformers (в частности, модель GPT-2), предобученную на задаче языкового моделирования, и тестируют ее в совершенно новых доменах. Главная особенность подхода заключается в том, что практически все параметры модели полностью «замораживаются» (freeze).

Блокируются следующие ключевые компоненты исходной сети:

Все слои многоголового внимания (multi-head self-attention).
Все слои прямого распространения (feed-forward layers) внутри остаточных блоков (residual blocks).

В результате тонкой настройке (fine-tuning) подвергается лишь от 0.01% до 0.1% от общего числа параметров нейросети. Обучаемыми остаются только входные и выходные эмбеддинги, позиционное кодирование (positional embeddings), а также параметры слоев нормализации (layer norm). Команда исследователей демонстрирует, что такая частично замороженная модель (названная Frozen Pretrained Transformer, или FPT) способна эффективно конкурировать с трансформерами, обучаемыми на целевых задачах с нуля, а в ряде случаев даже превосходить их.

📊 Тестовые задачи и результаты тестирования 4:37

Чтобы доказать универсальность вычислительных возможностей замороженного трансформера, авторы протестировали его на широком спектре задач, далеких от привычного анализа текста:

Битовая память (Bit Memory). Модели поочередно показывают пять битовых строк длиной 1000 элементов каждая. Затем ей предъявляют шестую — искаженную (маскированную) версию одной из строк, где половина битов скрыта. Задача сети — распознать оригинал и полностью его восстановить.
Побитовое исключающее ИЛИ (BitXOR). Сети дают две битовые строки длиной по 5 элементов, для которых нужно вычислить элементный XOR. По утверждению ведущего, эта математическая задача исторически считается трудной для классических нейросетей.
Вычислительные операции (ListOps). Задача на вычисление длинных математических и логических последовательностей операций, где модель должна имитировать работу калькулятора.
Компьютерное зрение (MNIST и CIFAR-10). Изображения либо разбиваются на небольшие патчи, которые вытягиваются в длинные векторы, либо, как в бенчмарке Long Range Arena (LRA), разворачиваются построчно — пиксель за пикселем. Попиксельный метод лишает модель пространственной локализации и значительно усложняет обработку.
Биоинформатика (Remote Homology Detection). Задача по предсказанию укладки белка (protein folding) на основе структуры аминокислот.

Эксперименты показали неожиданные результаты. На простых синтетических тестах (Bit Memory и BitXOR) замороженный FPT и полноценный трансформер без труда набрали 100% точности. В то же время рекуррентная сеть LSTM с треском провалила тест памяти, поскольку, по мнению Янника Кильчера, специфика LSTM заставляет ее сжимать всю историю в один скрытый вектор без возможности «оглянуться назад», как это делает механизм внимания.

На сложных визуальных датасетах (MNIST, CIFAR-10) и в задаче протеомики замороженный трансформер показал результаты на уровне полноценно обучаемой архитектуры, а в тесте на фолдинг белков даже обошел оригинальную модель, обученную с нуля. В тесте ListOps все протестированные модели показали одинаково слабый результат, не сумев освоить глубокую иерархическую логику вычислений.

🔧 Скрытый механизм: почему «замороженная» модель работает? 9:50

Сам факт того, что веса внимания остаются неизменными, но сеть переключается с обработки текста на классификацию картинок, вызывает множество вопросов. Янник Кильчер выдвигает собственную гипотезу, основанную на детальном анализе архитектуры. Он обращает внимание на то, что авторы оставили обучаемыми параметры слоев нормализации (layer norm).

В математической структуре Layer Norm присутствуют два обучаемых параметра — коэффициент масштабирования ($a$) и смещение ($b$). Формула выглядит следующим образом:

$$y = a \cdot \text{norm}(x) + b$$

Янник Кильчер считает, что тонкая настройка параметров $a$ и $b$ фактически выполняет роль так называемых «адаптерных слоев» (adapter layers). Изменяя масштаб и смещение вектора перед его подачей на следующий уровень, алгоритм обратного распространения ошибки может радикально перестраивать траекторию данных внутри замороженного механизма внимания.

«Корректируя параметры нормализации, мы напрямую влияем на то, как формируются векторы ключей (keys), запросов (queries) и значений (values) на следующем шаге. Мы не меняем саму матрицу внимания, но мы меняем сигнал до неузнаваемости, заставляя фиксированное внимание маршрутизировать информацию так, как нам нужно», — объясняет Янник Кильчер.

Визуализация матриц внимания в задачах BitXOR и Bit Memory подтверждает эту догадку: даже без обновления весов внимания, сеть под воздействием измененных промежуточных сигналов начинает фокусироваться строго на релевантных позициях элементов.

🌍 Почему именно языковое предобучение? 17:50

Один из ключевых вопросов исследования: имеет ли текст какое-то сакральное значение, или для универсальности подойдет любая модальность? Авторы провели абляционные исследования, сравнив языковое предобучение (FPT) со следующими конфигурациями:

Случайная инициализация весов (Random initialization).
Предобучение только на битовых строках (Bit Memory).
Предобучение на компьютерном зрении (ImageNet-21k).

Языковое предобучение показало явное превосходство при обобщении на сторонние домены. Случайная инициализация значительно отставала в тестах MNIST и CIFAR-10. Модель, обученная на изображениях, неплохо показала себя на визуальных задачах, но оказалась беспомощной в остальных тестах.

Янник Кильчер предлагает два возможных объяснения этого феномена:

Гипотеза естественных сигналов. Текст, созданный человеком, содержит фундаментальные паттерны и универсальные структуры, которые свойственны любым сложным природным сигналам (включая изображения и структуры ДНК/белков). Предобучение на языке готовит сеть к восприятию реальности.
Вычислительная полезность (Computational Utility). Языковое моделирование — чрезвычайно сложная задача. В отличие от классификации картинок, где сеть выдает один вердикт на всю последовательность, при обучении языковой модели предсказание ($30\ 000$ возможных токенов в словаре) идет для каждого слова отдельно. Это заставляет сеть формировать внутри слоев внимания базовые «вычислительные примитивы» (например, логику XOR, функции копирования или удержания памяти). При смене задачи эти примитивы просто комбинируются по-новому.

Дополнительным бонусом заморозки параметров является защита от переобучения. В условиях малого объема данных (low data regime) обучение огромного трансформера с нуля ведет к быстрой потере обобщающей способности. Замороженный каркас выступает в качестве надежного регуляризатора, защищая нейросеть от зацикливания на шумах в обучающей выборке.