Как заставить ИИ планировать только там, где он знает?

Янник Килхер разбирает перспективную научную работу, посвященную оптимизации траекторий в обучении с подкреплением на основе моделей (Model-Based Reinforcement Learning). Авторы исследования предлагают изящное математическое решение проблемы, с которой сталкиваются практически все современные ИИ-агенты: склонности эксплуатировать ошибки собственных представлений о мире. Ограничивая аппетиты планировщика с помощью шумоподавляющих автокодировщиков, инженерам удалось добиться поразительной стабильности управления в сложных симуляционных и промышленных задачах.

🌍 Основы обучения с подкреплением на базе моделей 0:00

В классическом сценарии обучения с подкреплением (Reinforcement Learning) агент взаимодействует с окружающей средой методом проб и ошибок. Он совершает действие, мир возвращает ему новое наблюдение и награду, и этот цикл повторяется бесчисленное количество раз ради максимизации итогового выигрыша.

Однако существует более продвинутый подход — обучение на основе моделей (Model-Based RL). По словам Янника Килхера, в этом случае агент имеет внутри себя «модель мира», то есть нейросеть, которая пытается предугадать реакцию среды на любые действия.

Идеальные модели мира существуют в играх вроде шахмат, где правила жестко зафиксированы. В реальных же задачах исследователям приходится обучать глубокие нейросети аппроксимировать физику и логику процессов на основе накопленного опыта.

🗺️ Оптимизация траекторий и проблема иллюзий 2:34

Когда у агента есть рабочая модель мира, он может использовать ее для заглядывания вперед на определенный горизонт планирования $H$. Процесс выбора наилучшей последовательности шагов в дереве возможных сценариев называется оптимизацией траектории. Агент мысленно просчитывает несколько вариантов развития событий и выбирает тот путь, который сулит максимальную награду.

Главная уязвимость этой схемы кроется в несовершенстве обученной модели. По утверждению Янника Килхера, оптимизатор траекторий начинает агрессивно эксплуатировать неточности и слепые зоны внутренней нейросети. Ведущий сравнивает этот эффект с состязательной атакой (adversarial attack) алгоритма планирования на собственный разум.

Для наглядности Янник Килхер приводит пример с роботом в лабиринте комнат:

На этапе исследования робот безопасно перемещался по изученной зоне и обучил модель мира на этих данных.
В неизученной зоне находится стена, о которой модель робота ничего не знает.
Пытаясь найти кратчайший путь к цели, планировщик прокладывает маршрут напрямую сквозь стену, поскольку модель ошибочно считает это пространство пустым.

Чем эффективнее и мощнее ваш алгоритм планирования, тем разрушительнее становятся последствия, если модель мира содержит ошибки. Агент строит грандиозные иллюзии, которые разбиваются при столкновении с реальной физикой среды.

⚙️ Алгоритм управления и промышленный кейс 6:38

Стандартный цикл работы Model-Based RL агента укладывается в четыре последовательных шага:

Сбор первичных данных об окружающей среде.
Обучение динамической модели мира $F(s, a) \rightarrow s'$ на основе собранной информации.
Оптимизация траектории для текущего временного шага, выбор лучшего первого действия и его выполнение.
Добавление полученного реального опыта в общий пул данных для последующего дообучения модели.

Поскольку модель учится только на том, что агент делал физически, она точна лишь внутри распределения обучающей выборки. За ее пределами начинается область опасных фантазий оптимизатора.

В качестве примера реального ущерба от таких иллюзий Янник Килхер демонстрирует симуляцию управления химическим реактором. Система состоит из резервуара, двух входных труб с клапанами для подачи жидкостей и одной выходной трубы. Задача ИИ — максимизировать скорость генерации продукта, не превышая критический лимит давления. Процесс носит нелинейный характер и обладает временными задержками.

Обычный промышленный контроллер справляется с задачей стабильно, хоть и не идеально. Базовый ИИ-планировщик без регуляризации постоянно натыкается на уязвимости модели: он дергает клапаны вверх и вниз, создавая колоссальную тряску, и регулярно пробивает лимит давления, что в реальности привело бы к катастрофе. Новый метод регуляризации, предложенный авторами статьи, заставляет систему работать идеально плавно, быстро выводя показатели на целевую прямую.

🧠 Магия шумоподавляющих автокодировщиков 14:12

Идея исследователей из Curious AI заключается в том, чтобы изменить целевую функцию оптимизатора. Теперь ИИ должен искать не просто путь с максимальной наградой $G$, но и максимизировать логарифм вероятности самой траектории $\log P(\text{plan})$. Простыми словами: планировщик штрафуется, если пытается выбрать маршрут, который агент никогда не видел в своей обучающей выборке.

Для реализации этого ограничения авторы применили шумоподавляющий автокодировщик (Denoising Autoencoder, DAE). В классическом понимании DAE работает со сжатием данных:

На вход подается чистый объект (например, изображение кота или траектория робота).
К объекту подмешивается случайный гауссов шум.
Нейросеть сжимает зашумленный объект через узкое «горлышко» скрытых слоев, а затем пытается восстановить его до первоначального чистого состояния.

Если обучить такой автокодировщик на всех успешных траекториях, которые робот совершал ранее, сеть сформирует четкое представление о плотности распределения правильных данных.

🧮 Математический трюк: Градиент вероятности «бесплатно» 20:06

Главная математическая красота статьи, по мнению Янника Килхера, кроется в теории оптимального шумоподавления. Согласно ей, для устранения гауссова шума с дисперсией $\sigma^2$ идеальная функция восстановления обязана вычислять градиент логарифма плотности вероятности входных данных:

$$text{DAE}(\tilde{x}) - \tilde{x} = \sigma^2 \nabla_x \log P(\tilde{x})$$

Это означает, что обученный шумоподавляющий автокодировщик при вычитании своего входа из выхода автоматически выдает нужное направление шага (градиент) для возвращения траектории в безопасную зону.

При оптимизации плана инженеры используют стандартное градиентное взятие производных по цепочке (chain rule). Оптимизатор обновляет шаги робота, складывая градиент награды и градиент от DAE. В результате ИИ физически не может построить маршрут сквозь неоткрытые стены — автокодировщик мягко, но уверенно затягивает траекторию обратно в «зеленую» зону известного опыта.

📊 Эксперименты на роботах MuJoCo и дилемма исследователя 25:17

Метод протестировали на классических робототехнических бенчмарках MuJoCo:

Ant: трехмерный четвероногий паукообразный робот, задача которого — уйти как можно дальше.
HalfCheetah: двумерный гепард, требующий сложной координации суставов для бега.

Разработанный алгоритм (обозначенный на графиках красным цветом) продемонстрировал впечатляющую sample-efficiency — он начинал эффективно управлять роботами значительно быстрее, чем сильные базовые модели вроде PETS или гауссовские процессы.

Однако Янник Килхер обращает внимание на важный нюанс, упомянутый авторами: на длинной дистанции базовые алгоритмы без регуляризации порой догоняют и даже обходят предложенный метод. Причина кроется в природе алгоритма. Ограничивая планирование рамками знакомого опыта, ИИ начинает гораздо меньше заниматься случайным исследованием среды (exploration).

Тем не менее, по словам генерального директора Curious AI Харри, это было сделано намеренно. Авторы убеждены, что планирование и исследование должны быть разделены. Вместо того чтобы полагаться на случайные ошибки и поломки планировщика ради открытия нового опыта, инженерам следует использовать целенаправленные, контролируемые алгоритмы эксплорации, которые станут следующим шагом в развитии этой технологии.