Янник Килхер о методе самостоятельного обучения навыкам ИИ

Yannic Kilcher 8 тыс. 50 мин 2 мин 01.06.2020
Главное

Беспризорное обучение навыкам: как ИИ учится «на лету» без учителя 0:00

Современные системы обучения с подкреплением (Reinforcement Learning) достигли впечатляющих успехов, но традиционные методы часто требуют от агента обучения конкретной задаче с нуля, получая награду от среды. В своей работе «Dynamics-Aware Unsupervised Discovery of Skills» («Динамически-осознанное бесконтрольное открытие навыков»), представленной на конференции ICLR 2020, Арчи Шарма и команда Google Brain предложили принципиально иной подход. Агент самостоятельно «открывает» базовые навыки — такие как ходьба вперед, назад или прыжки — в ходе обучения без учителя, а затем использует их для решения сложных задач через планирование, не требуя дополнительного обучения с подкреплением.

🤖 Суть метода: от обучения без учителя к планированию 8:49

Основная идея исследователей заключается в комбинации обучения с подкреплением без учителя (для получения навыков) и планирования на основе модели (для решения целей).

По мнению ведущего канала Yannic Kilcher, ключевой вклад работы заключается в ответе на вопрос: как сделать навыки разнообразными, но при этом предсказуемыми для модели среды?. Если модель среды работает плохо, ошибки планирования накапливаются и искажаются, что делает использование модели для предсказания будущего крайне сложным.

📉 Максимизация взаимной информации 12:23

Чтобы решить проблему предсказуемости, авторы предлагают максимизировать взаимную информацию (Mutual Information) между навыком $Z$ и последующим состоянием среды $S'$.

Янник Килхер отмечает, что авторы статьи используют вариационное приближение для математического обоснования этой стратегии, разбивая сложную задачу оптимизации на две части: улучшение модели мира (обучение динамике) и максимизацию нижней границы взаимной информации (обучение агента выбору навыков).

🧠 Планирование в непрерывном пространстве 42:25

На этапе выполнения (тестирования) агент попадает в ситуацию, где ему нужно, например, дойти до контрольной точки. Планирование происходит аналогично методам модельно-предсказательного управления (MPC), но на уровне навыков:

  1. Планировщик в «своем воображении» разыгрывает цепочки навыков.
  2. Оценивается ожидаемая награда для каждого варианта развития событий с использованием обученной модели динамики.
  3. Выбирается путь с наибольшим потенциальным вознаграждением.
  4. Агент выполняет первый шаг выбранной цепочки, после чего процесс перепланирования повторяется.

По словам Килхера, хотя авторы пытаются придать методу строгую математическую форму, в определенных местах (например, при аппроксимации распределения навыков) логика кажется «шаткой» и избыточно усложненной, однако итоговый результат — способность агента добираться до цели без повторного обучения — остается впечатляющим.

💬 Цитаты

«Если ваша модель среды плоха, то планирование в ней часто накапливает и даже преувеличивает ошибки.»

Янник Килхер 07:01

«Навыки, которые мы изучаем, должны быть предсказуемыми, но при этом разнообразными.»

Янник Килхер 11:14
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Reinforcement Learning (Обучение с подкреплением)
Тип машинного обучения, где агент учится принимать решения, получая награды или штрафы от среды.
Mutual Information (Взаимная информация)
Величина, измеряющая, сколько информации одна переменная сообщает о другой.
Model-based Planning (Планирование на основе модели)
Метод, при котором агент использует внутреннюю модель среды для прогнозирования результатов действий перед их совершением.
KL-divergence (Дивергенция Кульбака — Лейблера)
Мера различия между двумя вероятностными распределениями.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Reinforcement Learning Google Brain ICLR 2020 Mutual Information Model-based Planning