# Google T5: новые горизонты обучения нейросетей

Источник: https://www.youtube.com/watch?v=N-7rdJK4xlE
Канал: Machine Learning Street Talk
Опубликовано: 24.04.2020

---

## Трансформеры и предел трансфера: новый взгляд Google на обучение моделей
[[JUMP:7:49]]

В современном машинном обучении область обработки естественного языка (NLP) переживает период бурного роста, вызванный появлением архитектуры трансформеров. После публикации легендарной статьи «Attention is All You Need» и прорывной модели BERT, исследователи столкнулись с настоящим «цунами» публикаций, предлагающих десятки модификаций — от изменения целей претренинга до варьирования размеров датасетов.

Для систематизации этого хаоса исследователи Google под руководством Колина Раффеля представили работу «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Авторы поставили перед собой амбициозную цель: провести масштабное исследование («абляционное исследование») всех существующих подходов, чтобы изолировать факторы, действительно влияющие на производительность моделей.

### 🛠 Архитектурная унификация: модель T5
[[JUMP:10:39]]

Ключевым нововведением работы стал фреймворк «text-to-text» и создание модели **T5**. Суть подхода заключается в гомогенизации всех задач NLP:

*   **Универсальный вход-выход:** Раньше для перевода, классификации или ответов на вопросы требовались специфические архитектуры. T5 использует один и тот же механизм для всего.
*   **Текстовые инструкции:** Входной текст теперь содержит описание задачи. Например: «переведи с английского на немецкий: [текст]».
*   **Отсутствие утечки:** Несмотря на обучение на разных задачах, модель демонстрирует, что архитектура «текст-в-текст» не деградирует в качестве, а при масштабировании показывает state-of-the-art результаты.

Собеседники отмечают, что с точки зрения разработчика, такая модель значительно упрощает пайплайн переноса обучения (transfer learning), так как избавляет от необходимости подстраивать входные данные под архитектурные ограничения.

### 📉 Преодоление сложности трансформеров
[[JUMP:3:48]]

Трансформеры радикально отличаются от предыдущих парадигм — полносвязных сетей (DNN), рекуррентных (RNN) и сверточных (CNN). Хотя RNN были хороши для моделирования последовательностей, они требовали хранения состояния на протяжении всей длины предложения, что делало обучение сложным. Трансформеры же могут связать любую точку последовательности с любой другой за один шаг благодаря механизму внимания.

Однако у них есть свои «болевые точки»:

*   Ограниченная длина входа.
*   Высокие требования к памяти.
*   Отсутствие встроенного понятия «позиции» токена.

Последняя проблема решается через позиционное кодирование. Участники дискуссии с восторгом отозвались об использовании синусоидальных волн разной частоты в оригинальной статье Google — это своего рода «линейка», дающая модели информацию о соседстве токенов и масштабных расстояниях.

### 📊 Значение данных и «Колоссальный корпус»
[[JUMP:54:37]]

Одним из важнейших выводов стало подтверждение того, что недообученность (under-training) была главной проблемой ранних моделей вроде BERT. Исследователи представили **C4 (Colossal Clean Crawled Corpus)** — очищенный набор данных из Common Crawl.

*   **Фильтрация:** Исходный дамп имел размер 6,1 ТБ, но после эвристической очистки (удаление JavaScript, оставление только предложений с точкой) размер сократился до 745 ГБ.
*   **Масштаб:** Собеседники сошлись во мнении, что секрет «магии» современных моделей часто заключается не в сложности алгоритма, а в банальном объёме данных и увеличении вычислительных мощностей.
*   **Скепсис к бенчмаркам:** Гости шоу (Янник и Коннор) подчеркнули, что стандартные бенчмарки и соревнования могут давать ложное чувство прогресса. Иногда выигрышная модель просто «затачивается» под метрику и перестает обобщать знания на реальные задачи.

### 🧠 Будущее: меморизация или интеллект?
[[JUMP:1:05:00]]

В финальной части дискуссии участники затронули философский вопрос: «обучаются» ли трансформеры по-настоящему или просто занимаются интерполяцией данных?

*   **Аргумент за меморизацию:** Учитывая колоссальные размеры современных моделей (до 17–18 миллиардов параметров и более), они, вероятно, запоминают большую часть обучающей выборки и просто «смешивают и сочетают» её элементы.
*   **Проблема groundedness:** Спикеры считают, что следующий прорыв в ИИ связан с «заземлением» (grounding) — связью моделей с физическим миром через сенсоры, чтобы они понимали, что такое «угол дома» или «отскок мяча», а не просто оперировали статистикой токенов.

Несмотря на дискуссионность методов, все участники признали: демократизация технологий, при которой сложные инструменты перевода и анализа стали доступны любому разработчику, — это безусловный шаг вперед.