# Экстремальное масштабирование: как модель ExT5 объединила 107 задач обучения

Источник: https://www.youtube.com/watch?v=FbRcbM4T-50
Канал: Yannic Kilcher
Опубликовано: 30.11.2021

---

Исследователи из Google Research и DeepMind представили новую модель ExT5 и массивный набор данных ExMix, направленные на экстремальное масштабирование многозадачного трансферного обучения в сфере обработки естественного языка. В своем детальном видеоразборе популярный ИИ-исследователь и блогер Янник Кильчер (Yannic Kilcher) подробно анализирует архитектуру данного решения, методологию симультанного обучения и результаты многочисленных абляционных экспериментов. Анализ показывает, как совмещение классических self-supervised подходов с огромным пулом supervised задач способно кардинально изменить качество работы нейросетей на downstream-тестах.

## 🧠 От концепции T5 к экстремальному масштабированию ExT5
[[JUMP:0:00]]

Модель ExT5 базируется на известной архитектуре T5 (Text-to-Text Transfer Transformer), ключевая идея которой заключается в сведении любой NLP-задачи к генерации текста. В отличие от моделей типа BERT, где для решения специализированных задач поверх энкодера насаживаются отдельные классификационные слои, T5 работает как чистая языковая модель: она принимает текстовую последовательность токенов и обучается корректно продолжать её. 

Такой подход реализуется с помощью текстовых подсказок (промптов). Например, если перед моделью стоит задача ответов на вопросы, входная строка размечается префиксом `Question:`. Для диалогового моделирования реплики кодируются последовательными структурами вида `Person 1:` и `Person 2:`. Янник Кильчер указывает на фундаментальное различие с моделью GPT-3: если GPT-3 обучалась исключительно на предсказании следующего токена из интернет-текстов и подхватывала паттерны промптов «на лету», то модели семейства T5 целенаправленно тренируются на структурированных задачах, которые изначально входят в обучающую выборку.

Главная инновация ExT5 заключается во введении набора данных ExMix (Extreme Mixture). Это колоссальная коллекция, объединяющая 107 контролируемых (supervised) NLP-задач, собранных из разнообразных доменов и семейств. Полноценная модель ExT5 представляет собой нейросеть T5, прошедшую предобучение на этой гигантской смеси.

## 📊 Состав набора данных ExMix
[[JUMP:8:09]]

Различные задачи ExMix распределены по следующим ключевым семействам:

* Саммаризация (summarization).
* Диалоговое моделирование (dialogue modeling).
* Логический вывод (natural language inference, NLI).
* Классификация (classification).
* Семантический парсинг (semantic parsing).
* Здравый смысл (common sense).
* Ответы на вопросы без контекста (closed book question answering, CBQA).
* Понимание прочитанного (reading comprehension).

Янник Кильчер подчеркивает высокую гетерогенность и сложность собранных данных. В качестве яркого примера он приводит задачу семантического парсинга (датасет FuncQL), где на вход модели подается запрос на естественном языке (например, «give me a list of airlines in pittsburgh»), а на выходе она должна сгенерировать точный код на формальном языке программирования. Подобное разнообразие требует от модели не просто зазубривания паттернов, а глубокого оперирования языковыми структурами.

## 🧪 Эксперименты по совместному обучению: Взаимопомощь или конфликт задач?
[[JUMP:9:42]]

В ходе исследования авторы попытались выяснить, как именно различные типы задач влияют друг на друга при их одновременном освоении (co-training). Для этого они изучили интер- и интра-семейственные корреляции. Как отмечает Янник Кильчер, большинство задач внутри одного семейства предсказуемо помогают друг другу, хотя фиксируются и аномальные исключения.

Для оценки авторы поочередно обучали модель на парах семейств задач и замеряли итоговую точность. Например, совместное обучение задачам классификации (CLS) и логического вывода (NLI) заметно улучшает результаты тестирования NLI по сравнению с изолированным обучением исключительно на NLI-данных при том же вычислительном бюджете. В то же время добавление задач из семейства саммаризации (summarization) практически во всех комбинациях оказывало выраженный негативный эффект на точность параллельных задач.

По словам ведущего, ключевой вывод из данного этапа работы заключается в том, что при совмещении нескольких задач далеко не всегда можно априори гарантировать положительный синергетический эффект. Тем не менее, авторам удалось математически доказать общую пользу масштабирования за счет анализа усредненных отклонений производительности моделей.

## 🎯 Поиск идеального подмножества для SuperGLUE
[[JUMP:16:47]]

Поскольку бенчмарк SuperGLUE является индустриальным стандартом для оценки многозадачных NLP-моделей, исследователи задались целью найти оптимальный набор из 107 доступных задач, предобучение на котором обеспечило бы наивысший балл на этом тесте.

Сравнивались следующие конфигурации pre-training:

1.  Ванильная версия — обучение без дополнительных supervised задач, только на SuperGLUE.
2.  Случайный выбор 55 задач («Random 55»).
3.  Экспертный отбор («Best Effort») — 48 задач, показавших наилучшие результаты взаимопомощи по таблице корреляций.

В конфигурацию «Best Effort» экспертно включили семейства NLI, Common Sense, Classification и Closed Book QA. Результаты эксперимента оказались неожиданными: случайный набор из 55 задач («Random 55») превзошел по эффективности кропотливо отобранную учеными группу «Best Effort». Окончательную же точку поставила конфигурация, задействовавшая все 107 задач ExMix одновременно, продемонстрировав колоссальный отрыв в качестве на downstream-тестах.

По мнению Янника Кильчера, данный результат служит сильным аргументом в пользу гипотезы о том, что решающее значение имеет именно масштаб и разнообразие данных, а не прецизионный отбор и фильтрация задач под конкретный целевой бенчмарк.

## 🔄 Симультанное предобучение против поэтапной настройки
[[JUMP:20:32]]

Ещё один важный методологический вопрос исследования — как именно интегрировать многозадачный датасет ExMix в пайплайн создания модели. Авторы противопоставили два подхода:

1.  Симультанное предобучение (Pre-training) — одновременное обучение на supervised-задачах из ExMix и на self-supervised языковом моделировании, за которым следует финальная тонкая настройка на целевой задаче.
2.  Предварительная тонкая настройка (Pre-fine-tuning) — сначала берется стандартный чекпоинт T5, затем он дообучается на ExMix (фаза pre-fine-tuning), и только потом настраивается на SuperGLUE.

Эксперименты продемонстрировали явное преимущество симультанного подхода. Если ванильный чекпоинт T5 выдает на SuperGLUE результат 76.1, а поэтапный pre-fine-tuning поднимает его до 78.1, то одновременное сквозное предобучение обеспечивает максимальный и наиболее стабильный буст метрик.

Янник Кильчер предлагает две теоретические гипотезы для объяснения этого феномена. Во-первых, по мнению ведущего, размеченные (supervised) датасеты обладают намного более высокой информационной плотностью по сравнению с обычным текстом. Выставляя метки, разметчики фактически приносят в модель внешние знания о мире и глубоких грамматических связях, которые невозможно извлечь из простого потока токенов.

Во-вторых, Кильчер указывает на критическую важность ранних стадий обучения нейросетей. По его мнению, модель никогда полностью не избавляется от паттернов, заложенных при первичной инициализации. На старте перед сетью открыто бесконечное количество путей развития, но как только первичное направление выбрано, все последующие этапы fine-tuning представляют собой лишь оптимизационные «колебания» в рамках заданной траектории. Симультанное обучение с первого шага направляет модель в наиболее перспективное русло.

## ⚖️ Оптимальный баланс supervised и self-supervised целей
[[JUMP:27:13]]

Исследователи детально изучили влияние коэффициента $R$, отражающего соотношение объемов self-supervised данных (маскированного языкового моделирования, аналогичного BERT или GPT) к supervised задачам ExMix в процессе общего предобучения.

График зависимости качества модели от параметра $R$ выявил важные закономерности. При $R = 0$ (когда self-supervised обучение полностью отсутствует, а модель тренируют исключительно на 107 задачах ExMix) результаты оказываются катастрофически низкими. Как отмечает Янник Кильчер, это фундаментальное открытие: контролируемые датасеты, несмотря на наличие меток, имеют крайне скудный, фиксированный и однообразный синтаксический каркас. Без базового self-supervised погружения в «живой» язык модель теряет способность к генерализации.

Пиковая производительность ExT5 (почти 80 баллов на SuperGLUE) достигается в очень узком диапазоне, а именно при $R = 2$ (две части неразмеченного текста к одной части размеченных задач). При смещении коэффициента к значению 4 и выше точность стремительно падает, возвращаясь к базовому уровню стандартного языкового моделирования.

В связи с этим ведущий высказывает долю скепсиса и критикует архитектуру за капризность к гиперпараметрам. По мнению Кильчера, столь узкое терапевтическое окно параметра $R$ создает серьезные риски для практического применения в индустрии, так как инженерам придется раз за разом тратить огромные бюджеты на вычисления для верификации этого баланса на новых наборах данных.

## 🚀 Эффективность выборки и влияние размера батча
[[JUMP:34:08]]

Финальная серия тестов коснулась масштабирования вычислительных параметров. При оценке подмножеств задач была зафиксирована высокая дисперсия результатов, однако увеличение размера батча (batch size) сделало восходящий тренд точности значительно более стабильным. По мнению Кильчера, для огромного пула разнородных задач колоссальный размер батча является жесткой необходимостью: он страхует нейросеть от ситуации, когда в несколько батчей подряд попадают данные только одной конкретной задачи, что могло бы дестабилизировать и «выбить» общие веса модели.

Кроме того, ExT5 доказала свою высокую эффективность выборки (sample efficiency). Графики обучения наглядно демонстрируют, что при идентичном объеме затраченных вычислений и шагов оптимизации ExT5 на протяжении всей временной шкалы существенно опережает стандартную T5. Это дает возможность останавливать обучение ExT5 на ранних стадиях, получая качество, сопоставимое с долгой и дорогой тренировкой базовой T5.

Резюмируя разбор, Янник Кильчер отмечает, что авторам удалось создать элегантный и мощный рецепт «суперзаряженной» модели. В финале видеоролика ведущий иронично добавляет, что даже если зрителям не понравился разбор и они поставят дизлайк, алгоритмы YouTube все равно отобразят это число в его панели управления, поэтому он призывает недовольных открыто писать конструктивную критику в комментариях.