«Teacher-forcing — это хак»: решение для стохастических RNN

Stochastic RNNs: жизнь без Teacher-Forcing 0:00

Традиционные методы обучения рекуррентных нейронных сетей (RNN) для генерации текста практически всегда полагаются на технику teacher-forcing, при которой модель во время обучения получает на вход эталонные (реальные) данные, а не свои собственные предсказания. В своем докладе Флориан, гость канала Янника Килхера (Yannic Kilcher), утверждает, что этот подход имеет фундаментальные недостатки, и предлагает альтернативу: стохастические RNN, использующие вариационные потоки (variational flows) и свободные от teacher-forcing.

Проблема Teacher-Forcing 0:41

Генерация текста исторически выросла из языкового моделирования, где задача состоит в предсказании следующего слова по цепочке предыдущих. В RNN это реализуется через функцию перехода $f$, которая обновляет скрытое состояние $h$ на основе предыдущего состояния и предыдущего слова.

Однако при обучении возникает «ловушка»: чтобы модель сходилась, исследователи используют teacher-forcing — подмену собственного предсказания модели на «истинный» токен из обучающей выборки.

По мнению Флориана, этот подход является «хаком» и порождает ряд проблем:

Разрыв между обучением и тестом: Модель учится на ground truth данных, но во время генерации (test time) она работает только со своими предсказаниями, что ведет к накоплению ошибок.
Хрупкость: Алекс Грейвс (Alex Graves), выступавший на воркшопе по обучению с подкреплением на конференции NeurIPS, назвал teacher-forcing одной из трех главных проблем авторегрессионных моделей. Грейвс утверждает, что это ведет к «миопическим» (близоруким) представлениям и «хрупкой» генерации, где модель учится предсказывать только на один шаг вперед, а не выстраивать длинные последовательности.

Новый подход: неавторегрессионные модели 4:11

Чтобы уйти от этой зависимости, Флориан предлагает изменить архитектуру функции перехода $f$. В новой модели функция:

Зависит от предыдущего скрытого состояния ($h_{t-1}$), но не зависит от предыдущего слова.
Принимает на вход вектор белого шума как источник энтропии.

Поскольку у одного префикса может быть множество продолжений, исследователям нужен источник стохастичности для моделирования этой неопределенности. Вопрос заключается в том, достаточно ли мощна функция $f$, чтобы превратить стандартный гауссовский шум в полноценную замену авторегрессионного механизма.

Вариационные потоки и обучение 5:27

Для реализации этой концепции авторы используют вариационные потоки (variational flows) и фреймворк вариационного вывода (variational inference).

Генеративная модель: Состоит из генеративного потока $F_G$ и источника шума.
Инференс-модель: Использует поток $F_Q$, который информирован о данных (будущих наблюдениях).

В процессе обучения обе части (инференс и генерация) образуют цепочку, где инференс-модель «подсказывает» нужный вектор шума, а генеративная модель пытается восстановить данные из этого шума и скрытого состояния. Это создает своеобразный компромисс между реконструкцией и соответствием модели априорному распределению.

Итоги и метрики 13:57

Авторы протестировали модель на задаче безусловной генерации текста. Ключевые выводы исследования:

Производительность: Модель не уступает, а зачастую превосходит авторегрессионные RNN, обученные с teacher-forcing, при том же размере скрытого состояния.
Важность архитектуры: Использование мощного генеративного потока оказалось критически важным для достижения высоких результатов.
Интерпретируемость шума: Авторы измерили взаимную информацию (mutual information) между вектором шума и наблюдением, подтвердив, что модель действительно использует шумовую компоненту как активный драйвер генерации.

Флориан заключает: неавторегрессионное моделирование последовательностей с использованием вариационных потоков — это жизнеспособный путь, который позволяет отказаться от teacher-forcing и получить интерпретируемую шумовую модель.