Трансформеры и предел трансфера: новый взгляд Google на обучение моделей 7:49
В современном машинном обучении область обработки естественного языка (NLP) переживает период бурного роста, вызванный появлением архитектуры трансформеров. После публикации легендарной статьи «Attention is All You Need» и прорывной модели BERT, исследователи столкнулись с настоящим «цунами» публикаций, предлагающих десятки модификаций — от изменения целей претренинга до варьирования размеров датасетов.
Для систематизации этого хаоса исследователи Google под руководством Колина Раффеля представили работу «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Авторы поставили перед собой амбициозную цель: провести масштабное исследование («абляционное исследование») всех существующих подходов, чтобы изолировать факторы, действительно влияющие на производительность моделей.
🛠 Архитектурная унификация: модель T5 10:39
Ключевым нововведением работы стал фреймворк «text-to-text» и создание модели T5. Суть подхода заключается в гомогенизации всех задач NLP:
- Универсальный вход-выход: Раньше для перевода, классификации или ответов на вопросы требовались специфические архитектуры. T5 использует один и тот же механизм для всего.
- Текстовые инструкции: Входной текст теперь содержит описание задачи. Например: «переведи с английского на немецкий: [текст]».
- Отсутствие утечки: Несмотря на обучение на разных задачах, модель демонстрирует, что архитектура «текст-в-текст» не деградирует в качестве, а при масштабировании показывает state-of-the-art результаты.
Собеседники отмечают, что с точки зрения разработчика, такая модель значительно упрощает пайплайн переноса обучения (transfer learning), так как избавляет от необходимости подстраивать входные данные под архитектурные ограничения.
📉 Преодоление сложности трансформеров 3:48
Трансформеры радикально отличаются от предыдущих парадигм — полносвязных сетей (DNN), рекуррентных (RNN) и сверточных (CNN). Хотя RNN были хороши для моделирования последовательностей, они требовали хранения состояния на протяжении всей длины предложения, что делало обучение сложным. Трансформеры же могут связать любую точку последовательности с любой другой за один шаг благодаря механизму внимания.
Однако у них есть свои «болевые точки»:
- Ограниченная длина входа.
- Высокие требования к памяти.
- Отсутствие встроенного понятия «позиции» токена.
Последняя проблема решается через позиционное кодирование. Участники дискуссии с восторгом отозвались об использовании синусоидальных волн разной частоты в оригинальной статье Google — это своего рода «линейка», дающая модели информацию о соседстве токенов и масштабных расстояниях.
📊 Значение данных и «Колоссальный корпус» 54:37
Одним из важнейших выводов стало подтверждение того, что недообученность (under-training) была главной проблемой ранних моделей вроде BERT. Исследователи представили C4 (Colossal Clean Crawled Corpus) — очищенный набор данных из Common Crawl.
- Фильтрация: Исходный дамп имел размер 6,1 ТБ, но после эвристической очистки (удаление JavaScript, оставление только предложений с точкой) размер сократился до 745 ГБ.
- Масштаб: Собеседники сошлись во мнении, что секрет «магии» современных моделей часто заключается не в сложности алгоритма, а в банальном объёме данных и увеличении вычислительных мощностей.
- Скепсис к бенчмаркам: Гости шоу (Янник и Коннор) подчеркнули, что стандартные бенчмарки и соревнования могут давать ложное чувство прогресса. Иногда выигрышная модель просто «затачивается» под метрику и перестает обобщать знания на реальные задачи.
🧠 Будущее: меморизация или интеллект? 1:05:00
В финальной части дискуссии участники затронули философский вопрос: «обучаются» ли трансформеры по-настоящему или просто занимаются интерполяцией данных?
- Аргумент за меморизацию: Учитывая колоссальные размеры современных моделей (до 17–18 миллиардов параметров и более), они, вероятно, запоминают большую часть обучающей выборки и просто «смешивают и сочетают» её элементы.
- Проблема groundedness: Спикеры считают, что следующий прорыв в ИИ связан с «заземлением» (grounding) — связью моделей с физическим миром через сенсоры, чтобы они понимали, что такое «угол дома» или «отскок мяча», а не просто оперировали статистикой токенов.
Несмотря на дискуссионность методов, все участники признали: демократизация технологий, при которой сложные инструменты перевода и анализа стали доступны любому разработчику, — это безусловный шаг вперед.