Янник Килхер о методе самостоятельного обучения навыкам ИИ

Беспризорное обучение навыкам: как ИИ учится «на лету» без учителя 0:00

Современные системы обучения с подкреплением (Reinforcement Learning) достигли впечатляющих успехов, но традиционные методы часто требуют от агента обучения конкретной задаче с нуля, получая награду от среды. В своей работе «Dynamics-Aware Unsupervised Discovery of Skills» («Динамически-осознанное бесконтрольное открытие навыков»), представленной на конференции ICLR 2020, Арчи Шарма и команда Google Brain предложили принципиально иной подход. Агент самостоятельно «открывает» базовые навыки — такие как ходьба вперед, назад или прыжки — в ходе обучения без учителя, а затем использует их для решения сложных задач через планирование, не требуя дополнительного обучения с подкреплением.

🤖 Суть метода: от обучения без учителя к планированию 8:49

Основная идея исследователей заключается в комбинации обучения с подкреплением без учителя (для получения навыков) и планирования на основе модели (для решения целей).

Этап 1: Обучение навыкам. Агент в бесконтрольной среде стремится самостоятельно сформировать «словари» движений (навыков), которые можно использовать как макро-действия.
Этап 2: Планирование. На этапе тестирования планировщик оперирует не низкоуровневыми командами, а уже готовыми навыками. Он анализирует, какую последовательность движений нужно совершить, чтобы достичь целевой точки.

По мнению ведущего канала Yannic Kilcher, ключевой вклад работы заключается в ответе на вопрос: как сделать навыки разнообразными, но при этом предсказуемыми для модели среды?. Если модель среды работает плохо, ошибки планирования накапливаются и искажаются, что делает использование модели для предсказания будущего крайне сложным.

📉 Максимизация взаимной информации 12:23

Чтобы решить проблему предсказуемости, авторы предлагают максимизировать взаимную информацию (Mutual Information) между навыком $Z$ и последующим состоянием среды $S'$.

Почему это работает: Если при знании текущего состояния $S$ и выбранного навыка $Z$ агент может уверенно предсказать $S'$, значит, навык несет высокую информативность.
Результат: Это заставляет агента выбирать такие навыки, которые приводят к четко определенным, легко предсказуемым результатам, а также поощряет разнообразие самих навыков (агент не может просто «стоять на месте», так как это не помогает предсказать переход в новое состояние).

Янник Килхер отмечает, что авторы статьи используют вариационное приближение для математического обоснования этой стратегии, разбивая сложную задачу оптимизации на две части: улучшение модели мира (обучение динамике) и максимизацию нижней границы взаимной информации (обучение агента выбору навыков).

🧠 Планирование в непрерывном пространстве 42:25

На этапе выполнения (тестирования) агент попадает в ситуацию, где ему нужно, например, дойти до контрольной точки. Планирование происходит аналогично методам модельно-предсказательного управления (MPC), но на уровне навыков:

Планировщик в «своем воображении» разыгрывает цепочки навыков.
Оценивается ожидаемая награда для каждого варианта развития событий с использованием обученной модели динамики.
Выбирается путь с наибольшим потенциальным вознаграждением.
Агент выполняет первый шаг выбранной цепочки, после чего процесс перепланирования повторяется.

По словам Килхера, хотя авторы пытаются придать методу строгую математическую форму, в определенных местах (например, при аппроксимации распределения навыков) логика кажется «шаткой» и избыточно усложненной, однако итоговый результат — способность агента добираться до цели без повторного обучения — остается впечатляющим.