# Янник Килчер об ExT5: как экстремальное масштабирование задач меняет обучение нейросетей

Источник: https://www.youtube.com/watch?v=FbRcbM4T-50
Канал: Yannic Kilcher
Опубликовано: 30.11.2021

---

В новом обзоре исследовательской работы ученых из Google Research и DeepMind под названием «ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning» известный ИИ-исследователь Янник Килчер (Yannic Kilcher) подробно разбирает концепцию экстремального масштабирования многозадачного обучения. Автор анализирует, как одновременное обучение модели на огромном пуле разнородных задач позволяет радикально повысить эффективность трансферного обучения в сфере обработки естественного языка (NLP). Главный вывод работы, по мнению ведущего, заключается в том, что простая синергия масштаба и разнообразия данных превосходит сложные стратегии точечного подбора задач.

## 🧬 Архитектура T5 и концепция единого текстового интерфейса
[[JUMP:02:14]]

Модель T5 (Text-to-Text Transfer Transformer) базируется на фундаментальной идее: любую задачу обработки естественного языка можно свести к единому текстовому интерфейсу. В отличие от классических подходов вроде BERT, где для решения специфических задач (например, ответов на вопросы) поверх базовой модели необходимо надстраивать отдельные специализированные слои классификации, T5 работает исключительно в режиме генерации текста. Модель получает на вход последовательность токенов и генерирует текстовое продолжение, содержащее ответ.

Для переключения между различными режимами работы используется механизм текстовых подсказок (промптов). В качестве примера в видео демонстрируется задача генерации диалогов, где ввод форматируется с помощью специальных меток вроде «person 1:» и «person 2:», или задача семантического парсинга с префиксом «parse to funql:».

Янник Килчер проводит важное разграничение между T5 и популярной моделью GPT-3 от OpenAI. По словам Килчера, ключевое отличие заключается в характере обучения: GPT-3 обучалась исключительно на классической задаче языкового моделирования (предсказание следующего токена) и улавливала паттерны выполнения инструкций стихийно, по мере поглощения интернет-текстов. Модель T5, напротив, изначально и целенаправленно обучается на массиве supervised-задач, где подобные промпты напрямую встроены в обучающую выборку. Это позволяет оценивать модель как на задачах из обучающего распределения (in-distribution), так и на абсолютно новых для нее типах запросов (out-of-distribution).

## 📊 Датасет ExMix: 107 задач под одной обложкой
[[JUMP:00:14]]

Центральным элементом исследования ExT5 является создание набора данных ExMix (Extreme Mixture). Данный датасет представляет собой масштабную компиляцию из 107 контролируемых (supervised) NLP-задач, охватывающих самые разные домены и семейства языковых моделей.

Янник Килчер приводит список основных семейств задач, вошедших в ExMix:

* Саммаризация (выделение главного из текста);
* Моделирование диалогов (включая специализированные датасеты, такие как Wizards of Wikipedia);
* Вывод на естественном языке (Natural Language Inference, NLI);
* Классификация текстов;
* Семантический парсинг (например, перевод естественного языка в формальный код запросов FunQL);
* Задачи на здравый смысл (Common Sense);
* Вопросно-ответные системы без контекста (Closed-book QA);
* Чтение с пониманием текста (Reading comprehension).

Параллельно со 107 supervised-задачами в процессе обучения используется классическая self-supervised задача маскированного языкового моделирования (Masked Language Modeling), напоминающая подход BERT. Модель получает текст из корпуса C4 (Common Crawl), в котором случайным образом маскируются отдельные фрагменты, и обучается восстанавливать их в текстовом формате. Вся эта гигантская смесь данных объединяется непосредственно на этапе претренинга модели.

## 🔀 Эксперимент по совместному обучению: как задачи влияют друг на друга
[[JUMP:09:42]]

Прежде чем перейти к полномасштабному обучению ExT5, авторы работы провели локальный эксперимент, чтобы выяснить, как различные семейства задач влияют друг на друга при одновременном обучении (co-training). Они оценивали корреляции внутри одного семейства и между разными группами задач.

Янник Килчер подробно разбирает сложную матричную таблицу результатов, представленную в статье. В рамках этого теста модель обучалась одновременно на двух разных семействах задач (или на одном и том же для контроля), после чего измерялась ее итоговая точность на тестовой выборке конкретного направления. По результатам анализа Килчер отмечает несколько ключевых аномалий и закономерностей:

* Задачи внутри одного семейства в большинстве случаев помогают друг другу повысить итоговую метрику, хотя из этого правила встречаются странные исключения.
* Совместное обучение задач классификации и задач вывода на естественном языке (NLI) дает взаимный синергетический эффект, улучшая финальные показатели по сравнению с обучением только на одном типе данных.
* Добавление задач из категории NLI практически всегда оказывает положительное влияние на сторонние типы задач.
* Напротив, интеграция задач по саммаризации (summarization) в подавляющем большинстве случаев негативно сказывается на результатах других категорий.

В целом, как подчеркивает Килчер, авторы приходят к выводу, что при обычном совместном файн-тюнинге нескольких задач нет однозначного ответа, поможет ли добавление новых данных итоговому результату или, наоборот, навредит ему.

## 🎯 Поиск идеального подмножества и сила масштаба
[[JUMP:16:47]]

Чтобы проверить, можно ли оптимизировать состав обучающей выборки, исследователи попытались найти идеальное подмножество среди 107 задач, которое обеспечило бы максимальный результат на популярном бенчмарке SuperGLUE (состоящем из 11 подзадач).

В ходе экспериментов сравнивались четыре различные конфигурации претренинга:

1.  **Vanilla (базовый сценарий):** модель претренируется без использования supervised-задач, проходя обучение только на целевом бенчмарке SuperGLUE.
2.  **Best Effort (экспертный выбор):** авторы вручную отобрали смесь из 48 наиболее «полезных» задач (NLI, Common Sense, классификация и Closed-book QA), показавших наилучшие средние результаты в матрице корреляций.
3.  **Random 55:** случайный набор из 55 задач, сформированный без какого-либо аналитического отбора.
4.  **Полный пул ExMix:** одновременное использование всех 107 доступных supervised-задач.

Результаты тестирования оказались неожиданными. Случайный набор из 55 задач превзошел тщательно выверенную экспертную подборку из 48 задач. Окончательную победу с огромным отрывом одержала конфигурация, задействовавшая все 107 задач без исключения.

Янник Килчер видит в этом строгое доказательство гипотезы о том, что для трансферного обучения критически важен именно масштаб и разнообразие данных, а не прецизионный отбор конкретных типов задач. Попытки «перехитрить» систему и отсеять якобы мешающие задачи работают хуже, чем грубое увеличение объема многозадачной выборки.

## ⏳ Стратегия обучения: мультизадачный претренинг против Pre-fine-tuning
[[JUMP:20:32]]

Еще один фундаментальный вопрос исследования касался архитектуры самого процесса обучения: стоит ли внедрять supervised-задачи непосредственно в претренинг или лучше добавлять их поэтапно? Авторы сравнили две кардинально разные стратегии. Первая — стратегия «Pre-fine-tuning», при которой берется стандартный чекпоинт T5, затем обучается на смеси ExMix и только потом адаптируется под SuperGLUE. Вторая — сквозной «мультизадачный претренинг», где self-supervised обучение на корпусе C4 и обучение на 107 задачах ExMix происходят строго параллельно с самого нуля.

Метрики показали безоговорочное преимущество параллельного подхода. Базовая модель Vanilla на SuperGLUE набрала 76.1 балла. Поэтапный Pre-fine-tuning поднял этот показатель до 78.1 балла, что Килчер называет солидным приростом. Однако параллельное включение ExMix непосредственно в претренинг дало еще более мощный скачок эффективности.

Янник Килчер выдвигает две ключевые гипотезы, объясняющие этот феномен:

* **Информационная плотность размеченных данных:** Контролируемые датасеты содержат в себе колоссальный объем внешних знаний об устройстве мира и грамматике, привнесенных разметчиками. Когда модель сопоставляет промпт и лейбл, она усваивает сложные концепты (например, географические сущности или логические связи) гораздо быстрее, чем при простом чтении сырого неразмеченного текста. Поэтому supervised-токены обладают гораздо более высокой ценностью для обучения, чем стандартные self-supervised токены.
* **Необратимость ранних стадий обучения (эффект инициализации):** По мнению Килчера, нейронные сети никогда полностью не «забывают» свой самый первый опыт претренинга. На начальных этапах модель выбирает глобальное концептуальное направление движения в пространстве параметров из бесконечного числа вариантов. Дальнейший файн-тюнинг способен лишь слегка скорректировать веса в локальных оптимумах, но не может кардинально изменить траекторию модели. Обучение на многозадачном пуле с самого первого шага задает наиболее адаптивный вектор развития.

## ⚖️ Пропорции данных и эффект размера батча
[[JUMP:27:25]]

Важным параметром конфигурации ExT5 является коэффициент $R$ — соотношение объемов self-supervised данных к supervised-задачам в процессе претренинга. Исследователи детально изучили, как изменение этого баланса влияет на финальное качество.

Янник Килчер обращает внимание на критические точки построенного авторами графика. Если установить $R = 0$ (то есть полностью исключить стандартное языковое моделирование и оставить только 107 supervised-задач), результаты модели оказываются, по выражению Килчера, абсолютно «ужасными». Ведущий объясняет это тем, что supervised-датасеты крайне ограничены с точки зрения языкового разнообразия: промпты в них однотипны, а ответы часто представляют собой сухие структуры или фиксированные метки, из-за чего модель не способна глубоко освоить живой человеческий язык.

Оптимальный баланс был обнаружен в узком диапазоне. Пик качества на SuperGLUE (почти 80 баллов) достигается при значении $R = 2$, когда на одну часть размеченных данных приходится две части неразмеченного текста. Как только доля self-supervised данных начинает расти дальше ($R = 4$ и выше), показатели качества стремительно падают, возвращаясь к базовому уровню стандартного языкового моделирования. Килчер критикует модель за столь узкое окно гиперпараметра, поскольку в реальных сценариях это вынуждает инженеров проводить колоссальные по стоимости эксперименты для поиска идеального баланса на новых данных.

Дополнительно авторы исследовали влияние размера батча (batch size) при фиксированном вычислительном бюджете. Выяснилось, что увеличение размера батча делает тренд роста метрик более стабильным и минимизирует стандартное отклонение. Килчер предполагает, что в условиях работы со 107 разнородными задачами огромный батч критически важен для обеспечения баланса данных: он предотвращает ситуации, когда в один батч попадают примеры только из одной задачи, что могло бы дестабилизировать веса всей сети.

## 📈 Эффективность выборки и финальные метрики
[[JUMP:35:55]]

Финальная часть работы посвящена оценке sample efficiency (эффективности выборки) ExT5. Эксперименты наглядно продемонстрировали, что ExT5 обучается значительно быстрее стандартной архитектуры T5 на всем протяжении тренировочного цикла. Одинаковый с T5 уровень качества модель ExT5 демонстрирует на гораздо более ранних этапах, что позволяет радикально сократить расходы на вычисления и завершить претренинг раньше времени.

При оценке на конкретных downstream-задачах ExT5 стабильно опережает базовые модели, однако величина этого отрыва сильно варьируется в зависимости от целевого домена:

* В задачах машинного перевода прирост оказался незначительным: базовая T5 показала 29.01 балла, в то время как ExT5 набрала 29.49 балла.
* В других языковых тестах зафиксированы тектонические сдвиги: на определенных датасетах метрика подскочила с 55 до 63 баллов, что означает колоссальный качественный прорыв.

Подводя итог, Янник Килчер характеризует ExT5 как классическую архитектуру T5, «заряженную стероидами» за счет претренинга на комбинированном объекте. Простое и элегантное решение — смешать две части self-supervised данных с одной частью supervised-задач (всего 107 штук) и запустить параллельное обучение с самого нуля — оказалось практически непревзойденным. Все попытки исследователей найти более «умный» обходной путь (вроде поэтапного обучения или ручной селекции данных) потерпели неудачу перед лицом концепции экстремального масштабирования.