# Янник Килхер о методе самостоятельного обучения навыкам ИИ

Источник: https://www.youtube.com/watch?v=HYEzHX6-fIA
Канал: Yannic Kilcher
Опубликовано: 01.06.2020

---

## Беспризорное обучение навыкам: как ИИ учится «на лету» без учителя

[[JUMP:0:00]]

Современные системы обучения с подкреплением (Reinforcement Learning) достигли впечатляющих успехов, но традиционные методы часто требуют от агента обучения конкретной задаче с нуля, получая награду от среды. В своей работе «Dynamics-Aware Unsupervised Discovery of Skills» («Динамически-осознанное бесконтрольное открытие навыков»), представленной на конференции ICLR 2020, Арчи Шарма и команда Google Brain предложили принципиально иной подход. Агент самостоятельно «открывает» базовые навыки — такие как ходьба вперед, назад или прыжки — в ходе обучения без учителя, а затем использует их для решения сложных задач через планирование, не требуя дополнительного обучения с подкреплением.

### 🤖 Суть метода: от обучения без учителя к планированию

[[JUMP:8:49]]

Основная идея исследователей заключается в комбинации обучения с подкреплением без учителя (для получения навыков) и планирования на основе модели (для решения целей).

*   **Этап 1: Обучение навыкам.** Агент в бесконтрольной среде стремится самостоятельно сформировать «словари» движений (навыков), которые можно использовать как макро-действия.
*   **Этап 2: Планирование.** На этапе тестирования планировщик оперирует не низкоуровневыми командами, а уже готовыми навыками. Он анализирует, какую последовательность движений нужно совершить, чтобы достичь целевой точки.

По мнению ведущего канала Yannic Kilcher, ключевой вклад работы заключается в ответе на вопрос: как сделать навыки разнообразными, но при этом предсказуемыми для модели среды?. Если модель среды работает плохо, ошибки планирования накапливаются и искажаются, что делает использование модели для предсказания будущего крайне сложным.

### 📉 Максимизация взаимной информации

[[JUMP:12:23]]

Чтобы решить проблему предсказуемости, авторы предлагают максимизировать взаимную информацию (Mutual Information) между навыком $Z$ и последующим состоянием среды $S'$.

*   **Почему это работает:** Если при знании текущего состояния $S$ и выбранного навыка $Z$ агент может уверенно предсказать $S'$, значит, навык несет высокую информативность.
*   **Результат:** Это заставляет агента выбирать такие навыки, которые приводят к четко определенным, легко предсказуемым результатам, а также поощряет разнообразие самих навыков (агент не может просто «стоять на месте», так как это не помогает предсказать переход в новое состояние).

Янник Килхер отмечает, что авторы статьи используют вариационное приближение для математического обоснования этой стратегии, разбивая сложную задачу оптимизации на две части: улучшение модели мира (обучение динамике) и максимизацию нижней границы взаимной информации (обучение агента выбору навыков).

### 🧠 Планирование в непрерывном пространстве

[[JUMP:42:25]]

На этапе выполнения (тестирования) агент попадает в ситуацию, где ему нужно, например, дойти до контрольной точки. Планирование происходит аналогично методам модельно-предсказательного управления (MPC), но на уровне навыков:

1.  Планировщик в «своем воображении» разыгрывает цепочки навыков.
2.  Оценивается ожидаемая награда для каждого варианта развития событий с использованием обученной модели динамики.
3.  Выбирается путь с наибольшим потенциальным вознаграждением.
4.  Агент выполняет первый шаг выбранной цепочки, после чего процесс перепланирования повторяется.

По словам Килхера, хотя авторы пытаются придать методу строгую математическую форму, в определенных местах (например, при аппроксимации распределения навыков) логика кажется «шаткой» и избыточно усложненной, однако итоговый результат — способность агента добираться до цели без повторного обучения — остается впечатляющим.