# Янник Кильхер: «Преемственные представления — это ключ к пониманию мира агентами»

Источник: https://www.youtube.com/watch?v=KXEEqcwXn8w
Канал: Yannic Kilcher
Опубликовано: 07.11.2019

---

## Нейронно-правдоподобный подход к обучению преемственным представлениям в частично наблюдаемых средах
[[JUMP:0:00]]

Янник Кильхер (Yannic Kilcher) анализирует научную работу, предлагающую новый метод обучения преемственным представлениям (Successor Representations, SR) в условиях частичной наблюдаемости. В основе работы лежит попытка найти «золотую середину» между модельным и безмодельным обучением с подкреплением. Авторы статьи — Эстер Виртус (Esther Virtus) и Маниш Шани (Manish Shani).

### Основы обучения с подкреплением: выбор пути
[[JUMP:0:26]]

Обычно агент в среде получает наблюдения (например, изображения) и выполняет действия, стремясь максимизировать награду. Кильхер выделяет два классических подхода:

* **Безмодельное обучение (Model-free):** Агент учит политику напрямую: на вход подается состояние, на выходе — действие. Это напоминает использование нейронной сети, где веса $\theta$ оптимизируются через обратное распространение ошибки для максимизации награды. Метод прост в реализации, но требует много данных.
* **Модельное обучение (Model-based):** Агент строит модель мира (например, как в шахматах). Зная правила переходов, он может выполнять «поиск» по дереву состояний, чтобы найти оптимальный путь к цели. Это вычислительно эффективно для поиска, но требует точного знания структуры мира.

### Преемственные представления как компромисс
[[JUMP:6:31]]

Преемственные представления (SR) позволяют объединить преимущества обоих подходов. Суть SR заключается в обучении того, как состояния связаны друг с другом в рамках текущей политики.

1.  **Матрица соединений:** Значение $M(s_i, s_j)$ показывает вероятность того, что, находясь в состоянии $s_i$, агент окажется в состоянии $s_j$ в ближайшем будущем.
2.  **Векторное сравнение:** Если векторы двух состояний близки, значит, они «функционально» похожи с точки зрения будущих траекторий.
3.  **Вычисление ценности:** При упрощенном предположении, что награда зависит только от состояния, функцию ценности можно вычислить простым умножением SR на значения наград в состояниях.

### Проблема частичной наблюдаемости
[[JUMP:16:51]]

В реальности агент не всегда знает свое точное состояние — он видит лишь «шумные» наблюдения (например, картинку, где скрыты детали). 

Авторы работы решают эту задачу через введение **распределенного кодирования (Distributional Distributed Coding, DDC)**. Агент не пытается угадать состояние точно, а работает с распределением вероятностей состояний, используя его математическое ожидание — $\mu$.

### Алгоритм «сон-пробуждение» (Wake-Sleep)
[[JUMP:22:41]]

Чтобы обучить модель, которая связывает наблюдения с латентными (скрытыми) состояниями, используется алгоритм с двумя фазами:

* **Фаза пробуждения (Wake phase):** Агент взаимодействует с реальной средой, собирает наблюдения и обновляет матрицу переходов $T$. Она связывает «догадки» агента о текущем состоянии с его будущими догадками.
* **Фаза сна (Sleep phase):** Агент «грезит», генерируя гипотетические траектории состояний, опираясь на выученную модель $T$. В этом состоянии агент может «видеть» истинные состояния (так как он их сам сгенерировал), что позволяет лучше откалибровать функцию $F(W)$, сопоставляющую наблюдения с истинными характеристиками состояний.

По словам Кильхера, ключевая прелесть метода в том, что функцию преобразования «наблюдение $\rightarrow$ состояние» не нужно учить явно — она вычисляется рекурсивно. 

### Результаты экспериментов
[[JUMP:33:59]]

Эксперименты с «зашумленной» средой показали, что метод DDC позволяет агенту правильно оценивать ценность состояний, даже если наблюдения вводят в заблуждение.

* Если агент верит «шумным» наблюдениям, он может ошибочно приписывать высокую ценность состояниям рядом с целью, не понимая, что физически находится далеко.
* Агент, использующий DDC, понимает, что наблюдения зашумлены, и корректно строит путь в обход препятствий, «понимая» структуру латентного пространства мира.

Кильхер заключает, что преемственные представления — это идеальное связующее звено между модельным и безмодельным подходом, которое крайне перспективно для развития интеллектуальных агентов.