Google T5: новые горизонты обучения нейросетей

Machine Learning Street Talk 6 тыс. 1 ч 40 мин 3 мин 24.04.2020
Главное

Трансформеры и предел трансфера: новый взгляд Google на обучение моделей 7:49

В современном машинном обучении область обработки естественного языка (NLP) переживает период бурного роста, вызванный появлением архитектуры трансформеров. После публикации легендарной статьи «Attention is All You Need» и прорывной модели BERT, исследователи столкнулись с настоящим «цунами» публикаций, предлагающих десятки модификаций — от изменения целей претренинга до варьирования размеров датасетов.

Для систематизации этого хаоса исследователи Google под руководством Колина Раффеля представили работу «Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer». Авторы поставили перед собой амбициозную цель: провести масштабное исследование («абляционное исследование») всех существующих подходов, чтобы изолировать факторы, действительно влияющие на производительность моделей.

🛠 Архитектурная унификация: модель T5 10:39

Ключевым нововведением работы стал фреймворк «text-to-text» и создание модели T5. Суть подхода заключается в гомогенизации всех задач NLP:

Собеседники отмечают, что с точки зрения разработчика, такая модель значительно упрощает пайплайн переноса обучения (transfer learning), так как избавляет от необходимости подстраивать входные данные под архитектурные ограничения.

📉 Преодоление сложности трансформеров 3:48

Трансформеры радикально отличаются от предыдущих парадигм — полносвязных сетей (DNN), рекуррентных (RNN) и сверточных (CNN). Хотя RNN были хороши для моделирования последовательностей, они требовали хранения состояния на протяжении всей длины предложения, что делало обучение сложным. Трансформеры же могут связать любую точку последовательности с любой другой за один шаг благодаря механизму внимания.

Однако у них есть свои «болевые точки»:

Последняя проблема решается через позиционное кодирование. Участники дискуссии с восторгом отозвались об использовании синусоидальных волн разной частоты в оригинальной статье Google — это своего рода «линейка», дающая модели информацию о соседстве токенов и масштабных расстояниях.

📊 Значение данных и «Колоссальный корпус» 54:37

Одним из важнейших выводов стало подтверждение того, что недообученность (under-training) была главной проблемой ранних моделей вроде BERT. Исследователи представили C4 (Colossal Clean Crawled Corpus) — очищенный набор данных из Common Crawl.

🧠 Будущее: меморизация или интеллект? 1:05:00

В финальной части дискуссии участники затронули философский вопрос: «обучаются» ли трансформеры по-настоящему или просто занимаются интерполяцией данных?

Несмотря на дискуссионность методов, все участники признали: демократизация технологий, при которой сложные инструменты перевода и анализа стали доступны любому разработчику, — это безусловный шаг вперед.

💬 Цитаты

«Мы просто chipping away at it with SGD — в нейросетях всегда много лишних параметров, и вероятностно один из подсетей всегда дает хороший результат.»

«Я не верю числам в статьях, потому что обычно авторы просто кидают больше ресурсов на свою новую идею.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Ablation study
Эксперимент, в котором исследователи убирают части системы (например, слои или задачи), чтобы понять, какой вклад они вносят в результат.
Transfer learning
Техника, при которой модель, обученная на одной задаче (претренинг), адаптируется для выполнения новой, похожей задачи.
Self-supervised learning
Метод обучения, где модель учится на неразмеченных данных, создавая себе задачи сама (например, предсказание пропущенного слова).
📊 Цифры
🗓 Хронология
  1. 2013 Появление модели Word2Vec Майкла Лёва (skip-gram).
  2. 2017 Публикация статьи «Attention is All You Need» с архитектурой трансформеров.
  3. Ноябрь 2018 Выход статьи о модели BERT от Джейкоба Девлина.
⚖️ Другая сторона
Искусственный интеллект T5 model Transformer Natural Language Processing Colossal Clean Crawled Corpus Deep Learning