«Teacher-forcing — это хак»: решение для стохастических RNN

Yannic Kilcher 3,9 тыс. 18 мин 2 мин 21.12.2018
Главное

Stochastic RNNs: жизнь без Teacher-Forcing 0:00

Традиционные методы обучения рекуррентных нейронных сетей (RNN) для генерации текста практически всегда полагаются на технику teacher-forcing, при которой модель во время обучения получает на вход эталонные (реальные) данные, а не свои собственные предсказания. В своем докладе Флориан, гость канала Янника Килхера (Yannic Kilcher), утверждает, что этот подход имеет фундаментальные недостатки, и предлагает альтернативу: стохастические RNN, использующие вариационные потоки (variational flows) и свободные от teacher-forcing.

Проблема Teacher-Forcing 0:41

Генерация текста исторически выросла из языкового моделирования, где задача состоит в предсказании следующего слова по цепочке предыдущих. В RNN это реализуется через функцию перехода $f$, которая обновляет скрытое состояние $h$ на основе предыдущего состояния и предыдущего слова.

Однако при обучении возникает «ловушка»: чтобы модель сходилась, исследователи используют teacher-forcing — подмену собственного предсказания модели на «истинный» токен из обучающей выборки.

По мнению Флориана, этот подход является «хаком» и порождает ряд проблем:

Новый подход: неавторегрессионные модели 4:11

Чтобы уйти от этой зависимости, Флориан предлагает изменить архитектуру функции перехода $f$. В новой модели функция:

  1. Зависит от предыдущего скрытого состояния ($h_{t-1}$), но не зависит от предыдущего слова.
  2. Принимает на вход вектор белого шума как источник энтропии.

Поскольку у одного префикса может быть множество продолжений, исследователям нужен источник стохастичности для моделирования этой неопределенности. Вопрос заключается в том, достаточно ли мощна функция $f$, чтобы превратить стандартный гауссовский шум в полноценную замену авторегрессионного механизма.

Вариационные потоки и обучение 5:27

Для реализации этой концепции авторы используют вариационные потоки (variational flows) и фреймворк вариационного вывода (variational inference).

В процессе обучения обе части (инференс и генерация) образуют цепочку, где инференс-модель «подсказывает» нужный вектор шума, а генеративная модель пытается восстановить данные из этого шума и скрытого состояния. Это создает своеобразный компромисс между реконструкцией и соответствием модели априорному распределению.

Итоги и метрики 13:57

Авторы протестировали модель на задаче безусловной генерации текста. Ключевые выводы исследования:

Флориан заключает: неавторегрессионное моделирование последовательностей с использованием вариационных потоков — это жизнеспособный путь, который позволяет отказаться от teacher-forcing и получить интерпретируемую шумовую модель.

💬 Цитаты

«Teacher forcing might lead to predict one step ahead not many and potentially brittle generation.»

Алекс Грейвс 03:43

«For a rigorous model of text generation we need a rigorous model of uncertainty.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Teacher-forcing
Метод обучения RNN, где на каждом шаге модель получает правильный ответ вместо своего предсказания.
Вариационные потоки
Метод преобразования простых распределений вероятностей в сложные с помощью обратимых функций.
Авторегрессия
Модель, где текущее значение зависит от предыдущих значений той же переменной.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект RNN Teacher-Forcing Variational Flows NeurIPS Alex Graves