Янник Килчер о GPT-2: «Модель учится задачам без обучения»

Yannic Kilcher 34,9 тыс. 27 мин 2 мин 18.02.2019
Главное

OpenAI и феномен GPT-2: обучение без учителя как ключ к универсальному ИИ 0:00

Недавняя публикация исследователей OpenAI под названием «Language Models are Unsupervised Multitask Learners» (Языковые модели — это неконтролируемые многозадачные обучающиеся) вызвала волну дискуссий в научном сообществе. В центре внимания — модель GPT-2, способная выполнять широкий спектр задач, таких как перевод текста, ответы на вопросы и суммаризация, без какой-либо специализированной настройки (fine-tuning). Янник Килчер отмечает, что авторы OpenAI — Алек Редфорд, Джеффри Ву, Ревен Чайлд, Дэвид Левин, Дария Амадей и Илья Суцкевер — представили подход, при котором масштабирование модели и данных приводит к неожиданно высокому уровню обобщения.

🧠 Архитектура и методология обучения 1:23

Ключ к успеху GPT-2, по словам Килчера, кроется в комбинации огромного объема данных и архитектуры на базе Transformer.

🌐 Нулевой выстрел (Zero-Shot) и многозадачность 14:46

Инновация авторов заключается в том, как они переформулируют различные задачи в формат задачи языкового моделирования.

Килчер подчеркивает: авторы признают, что модель не достигает показателей систем, специально обученных под конкретную задачу, но сам факт того, что «это просто работает» в режиме zero-shot, является фундаментальным сдвигом.

🛡️ Этическая дилемма и «холодная война» 4:18

Особое внимание в сообществе привлекла стратегия OpenAI: компания решила не выпускать полный код, набор данных и веса модели GPT-2 (ограничившись лишь небольшой версией), сославшись на риски злоупотребления.

💬 Цитаты

«Если мы тренируемся на данных, охватывающих весь спектр человеческого языка, нужные нам задачи будут изучены неявно.»

Янник Килчер 26:38

«Это не совсем опасно — выпускать это исследование, это лишь отсрочка неизбежного.»

Янник Килчер 11:02
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot
Способность модели выполнять задачу без предварительного обучения на примерах этой конкретной задачи.
Transformer
Архитектура нейронных сетей, использующая механизм внимания (attention) для обработки последовательностей данных.
Perplexity
Метрика оценки языковых моделей; чем ниже значение, тем лучше модель предсказывает текст.
Fine-tuning
Дообучение предварительно обученной модели на узкоспециализированном наборе данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект GPT-2 OpenAI Yannic Kilcher Transformer