Янник Кильхер: «Преемственные представления — это ключ к пониманию мира агентами»

Yannic Kilcher 3,6 тыс. 37 мин 3 мин 07.11.2019
Главное

Нейронно-правдоподобный подход к обучению преемственным представлениям в частично наблюдаемых средах 0:00

Янник Кильхер (Yannic Kilcher) анализирует научную работу, предлагающую новый метод обучения преемственным представлениям (Successor Representations, SR) в условиях частичной наблюдаемости. В основе работы лежит попытка найти «золотую середину» между модельным и безмодельным обучением с подкреплением. Авторы статьи — Эстер Виртус (Esther Virtus) и Маниш Шани (Manish Shani).

Основы обучения с подкреплением: выбор пути 0:26

Обычно агент в среде получает наблюдения (например, изображения) и выполняет действия, стремясь максимизировать награду. Кильхер выделяет два классических подхода:

Преемственные представления как компромисс 6:31

Преемственные представления (SR) позволяют объединить преимущества обоих подходов. Суть SR заключается в обучении того, как состояния связаны друг с другом в рамках текущей политики.

  1. Матрица соединений: Значение $M(s_i, s_j)$ показывает вероятность того, что, находясь в состоянии $s_i$, агент окажется в состоянии $s_j$ в ближайшем будущем.
  2. Векторное сравнение: Если векторы двух состояний близки, значит, они «функционально» похожи с точки зрения будущих траекторий.
  3. Вычисление ценности: При упрощенном предположении, что награда зависит только от состояния, функцию ценности можно вычислить простым умножением SR на значения наград в состояниях.

Проблема частичной наблюдаемости 16:51

В реальности агент не всегда знает свое точное состояние — он видит лишь «шумные» наблюдения (например, картинку, где скрыты детали).

Авторы работы решают эту задачу через введение распределенного кодирования (Distributional Distributed Coding, DDC). Агент не пытается угадать состояние точно, а работает с распределением вероятностей состояний, используя его математическое ожидание — $\mu$.

Алгоритм «сон-пробуждение» (Wake-Sleep) 22:41

Чтобы обучить модель, которая связывает наблюдения с латентными (скрытыми) состояниями, используется алгоритм с двумя фазами:

По словам Кильхера, ключевая прелесть метода в том, что функцию преобразования «наблюдение $\rightarrow$ состояние» не нужно учить явно — она вычисляется рекурсивно.

Результаты экспериментов 33:59

Эксперименты с «зашумленной» средой показали, что метод DDC позволяет агенту правильно оценивать ценность состояний, даже если наблюдения вводят в заблуждение.

Кильхер заключает, что преемственные представления — это идеальное связующее звено между модельным и безмодельным подходом, которое крайне перспективно для развития интеллектуальных агентов.

💬 Цитаты

«Successor representations... they kind of trade off the advantages of model-free... with the advantages of model-based.»

Янник Кильхер 06:46

«It's kind of like dreaming so given that you have a model T... you can now sample state trajectories.»

Янник Кильхер 29:58
👥 Спикер
📖 Термины
Successor Representations (SR)
Способ представления состояний, отражающий вероятность посещения будущих состояний в зависимости от текущего.
Partial Observability
Ситуация, когда агент не имеет полного доступа к истинному состоянию среды, получая лишь неполные или шумные наблюдения.
Wake-Sleep Algorithm
Метод обучения, при котором алгоритм чередует фазу сбора реальных данных (пробуждение) и фазу обучения на сгенерированных модельных данных (сон).
Distributional Distributed Coding (DDC)
Техника кодирования, при которой агент работает не с одним состоянием, а с распределением вероятностей состояний.
Latent State
Скрытое, истинное состояние среды, которое агент пытается восстановить по косвенным наблюдениям.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Successor Representations Yannic Kilcher Wake-Sleep algorithm