Нейронно-правдоподобный подход к обучению преемственным представлениям в частично наблюдаемых средах 0:00
Янник Кильхер (Yannic Kilcher) анализирует научную работу, предлагающую новый метод обучения преемственным представлениям (Successor Representations, SR) в условиях частичной наблюдаемости. В основе работы лежит попытка найти «золотую середину» между модельным и безмодельным обучением с подкреплением. Авторы статьи — Эстер Виртус (Esther Virtus) и Маниш Шани (Manish Shani).
Основы обучения с подкреплением: выбор пути 0:26
Обычно агент в среде получает наблюдения (например, изображения) и выполняет действия, стремясь максимизировать награду. Кильхер выделяет два классических подхода:
- Безмодельное обучение (Model-free): Агент учит политику напрямую: на вход подается состояние, на выходе — действие. Это напоминает использование нейронной сети, где веса $\theta$ оптимизируются через обратное распространение ошибки для максимизации награды. Метод прост в реализации, но требует много данных.
- Модельное обучение (Model-based): Агент строит модель мира (например, как в шахматах). Зная правила переходов, он может выполнять «поиск» по дереву состояний, чтобы найти оптимальный путь к цели. Это вычислительно эффективно для поиска, но требует точного знания структуры мира.
Преемственные представления как компромисс 6:31
Преемственные представления (SR) позволяют объединить преимущества обоих подходов. Суть SR заключается в обучении того, как состояния связаны друг с другом в рамках текущей политики.
- Матрица соединений: Значение $M(s_i, s_j)$ показывает вероятность того, что, находясь в состоянии $s_i$, агент окажется в состоянии $s_j$ в ближайшем будущем.
- Векторное сравнение: Если векторы двух состояний близки, значит, они «функционально» похожи с точки зрения будущих траекторий.
- Вычисление ценности: При упрощенном предположении, что награда зависит только от состояния, функцию ценности можно вычислить простым умножением SR на значения наград в состояниях.
Проблема частичной наблюдаемости 16:51
В реальности агент не всегда знает свое точное состояние — он видит лишь «шумные» наблюдения (например, картинку, где скрыты детали).
Авторы работы решают эту задачу через введение распределенного кодирования (Distributional Distributed Coding, DDC). Агент не пытается угадать состояние точно, а работает с распределением вероятностей состояний, используя его математическое ожидание — $\mu$.
Алгоритм «сон-пробуждение» (Wake-Sleep) 22:41
Чтобы обучить модель, которая связывает наблюдения с латентными (скрытыми) состояниями, используется алгоритм с двумя фазами:
- Фаза пробуждения (Wake phase): Агент взаимодействует с реальной средой, собирает наблюдения и обновляет матрицу переходов $T$. Она связывает «догадки» агента о текущем состоянии с его будущими догадками.
- Фаза сна (Sleep phase): Агент «грезит», генерируя гипотетические траектории состояний, опираясь на выученную модель $T$. В этом состоянии агент может «видеть» истинные состояния (так как он их сам сгенерировал), что позволяет лучше откалибровать функцию $F(W)$, сопоставляющую наблюдения с истинными характеристиками состояний.
По словам Кильхера, ключевая прелесть метода в том, что функцию преобразования «наблюдение $\rightarrow$ состояние» не нужно учить явно — она вычисляется рекурсивно.
Результаты экспериментов 33:59
Эксперименты с «зашумленной» средой показали, что метод DDC позволяет агенту правильно оценивать ценность состояний, даже если наблюдения вводят в заблуждение.
- Если агент верит «шумным» наблюдениям, он может ошибочно приписывать высокую ценность состояниям рядом с целью, не понимая, что физически находится далеко.
- Агент, использующий DDC, понимает, что наблюдения зашумлены, и корректно строит путь в обход препятствий, «понимая» структуру латентного пространства мира.
Кильхер заключает, что преемственные представления — это идеальное связующее звено между модельным и безмодельным подходом, которое крайне перспективно для развития интеллектуальных агентов.