Беспризорное обучение навыкам: как ИИ учится «на лету» без учителя 0:00
Современные системы обучения с подкреплением (Reinforcement Learning) достигли впечатляющих успехов, но традиционные методы часто требуют от агента обучения конкретной задаче с нуля, получая награду от среды. В своей работе «Dynamics-Aware Unsupervised Discovery of Skills» («Динамически-осознанное бесконтрольное открытие навыков»), представленной на конференции ICLR 2020, Арчи Шарма и команда Google Brain предложили принципиально иной подход. Агент самостоятельно «открывает» базовые навыки — такие как ходьба вперед, назад или прыжки — в ходе обучения без учителя, а затем использует их для решения сложных задач через планирование, не требуя дополнительного обучения с подкреплением.
🤖 Суть метода: от обучения без учителя к планированию 8:49
Основная идея исследователей заключается в комбинации обучения с подкреплением без учителя (для получения навыков) и планирования на основе модели (для решения целей).
- Этап 1: Обучение навыкам. Агент в бесконтрольной среде стремится самостоятельно сформировать «словари» движений (навыков), которые можно использовать как макро-действия.
- Этап 2: Планирование. На этапе тестирования планировщик оперирует не низкоуровневыми командами, а уже готовыми навыками. Он анализирует, какую последовательность движений нужно совершить, чтобы достичь целевой точки.
По мнению ведущего канала Yannic Kilcher, ключевой вклад работы заключается в ответе на вопрос: как сделать навыки разнообразными, но при этом предсказуемыми для модели среды?. Если модель среды работает плохо, ошибки планирования накапливаются и искажаются, что делает использование модели для предсказания будущего крайне сложным.
📉 Максимизация взаимной информации 12:23
Чтобы решить проблему предсказуемости, авторы предлагают максимизировать взаимную информацию (Mutual Information) между навыком $Z$ и последующим состоянием среды $S'$.
- Почему это работает: Если при знании текущего состояния $S$ и выбранного навыка $Z$ агент может уверенно предсказать $S'$, значит, навык несет высокую информативность.
- Результат: Это заставляет агента выбирать такие навыки, которые приводят к четко определенным, легко предсказуемым результатам, а также поощряет разнообразие самих навыков (агент не может просто «стоять на месте», так как это не помогает предсказать переход в новое состояние).
Янник Килхер отмечает, что авторы статьи используют вариационное приближение для математического обоснования этой стратегии, разбивая сложную задачу оптимизации на две части: улучшение модели мира (обучение динамике) и максимизацию нижней границы взаимной информации (обучение агента выбору навыков).
🧠 Планирование в непрерывном пространстве 42:25
На этапе выполнения (тестирования) агент попадает в ситуацию, где ему нужно, например, дойти до контрольной точки. Планирование происходит аналогично методам модельно-предсказательного управления (MPC), но на уровне навыков:
- Планировщик в «своем воображении» разыгрывает цепочки навыков.
- Оценивается ожидаемая награда для каждого варианта развития событий с использованием обученной модели динамики.
- Выбирается путь с наибольшим потенциальным вознаграждением.
- Агент выполняет первый шаг выбранной цепочки, после чего процесс перепланирования повторяется.
По словам Килхера, хотя авторы пытаются придать методу строгую математическую форму, в определенных местах (например, при аппроксимации распределения навыков) логика кажется «шаткой» и избыточно усложненной, однако итоговый результат — способность агента добираться до цели без повторного обучения — остается впечатляющим.