Как глубокое обучение с подкреплением меняет робототехнику и теорию управления

The TWIML AI Podcast 1,9 тыс. 1 ч 22 мин 9 мин 21.02.2022
Главное

Сэм Черрингтон, ведущий подкаста The TWIML AI Podcast, обсудил с Камьяром Азиззаденешели, ассистентом профессора Университета Пердью, ключевые технологические тренды и прорывы в области глубокого обучения с подкреплением (Deep Reinforcement Learning, RL). В центре внимания ученых — переход от абстрактных математических задач к прикладному контролю робототехники, новые методы оценки рисков и внедрение строгих теоретических гарантий в алгоритмы искусственного интеллекта. Материал подводит итоги масштабных изменений в индустрии за последние годы и намечает вектор ее развития.

🤖 Робототехника и высокоскоростные полеты: эра жестких гарантий 5:10

Последние два года ознаменовались тесной интеграцией методов обучения с подкреплением в реальную робототехнику. Примечательно, что этот прорыв произошел вопреки пандемии, из-за которой многие исследователи были лишены постоянного доступа к своим лабораториям. Ключевым драйвером изменений стало то, что специалисты по робототехнике и теории управления глубоко освоили машинное обучение и начали самостоятельно разрабатывать специализированные RL-алгоритмы под конкретные инженерные нужды.

Исторически главным барьером для внедрения машинного обучения в робототехнику было отсутствие жестких гарантий. В инженерной культуре принято требовать от системы абсолютной стабильности: алгоритм должен работать предсказуемо, а не «случайно». Сегодня исследователи научились создавать архитектуры с встроенными математическими гарантиями, что позволяет развертывать роботов в экстремальных, ранее не изученных условиях — например, запускать автономные дроны при непредсказуемых шквалах ветра. Такой подход исключает необходимость многомесячной калибровки регуляторов и защищает дорогостоящее оборудование от аварий.

В контексте систем управления гарантии делятся на два ключевых типа:

Одним из наиболее эффективных инструментов для достижения таких гарантий Камьяр Азиззаденешели называет концепцию Липшицевости (Lipschitzness). В качестве примера приводится задача посадки дрона или его полета у потолка, где из-за циркуляции воздуха возникают сложные и свирепые эффекты аэродинамики, которые невозможно описать классическими законами Ньютона.

Глубокие нейросети способны эффективно выучивать эти остаточные турбулентные паттерны. Чтобы гарантировать устойчивость закрытого контура управления, свойство Липшицевости закладывается непосредственно в архитектуру нейросети (например, через механизмы самонормализации), а не просто добавляется в функцию потерь в виде мягкого штрафа. Зная точную константу Липшица, инженеры проектируют контроллер, который гарантированно работает при первом же запуске «в дикой природе».

Параллельно развивается направление онлайн-метаобучения (online meta-learning) непосредственно в процессе полета. Если в симуляторе модель тренировалась лишь на нескольких конфигурациях ветра, то при реальном вылете алгоритм способен адаптивно подстраиваться под хаотические турбулентные потоки на лету. По словам гостя, индустрия совершила фундаментальный сдвиг: вместо поиска универсального алгоритма для «худшего математического сценария во Вселенной», ученые перешли к проектированию адаптивных алгоритмов под узкие прикладные задачи.

🕹️ От классической кибернетики к обучению: трансформация теории управления 18:08

Теория управления и кибернетика — исторически фундаментальные и консервативные области. Классический подход десятилетиями базировался на постулате, что параметры и математическая модель управляемой среды известны инженерам заранее, а сам процесс вычислений не предполагает элементов обучения. В последние три года ситуация изменилась: исследователи начали массово формулировать задачи теории управления в парадигме RL, где среда изначально неизвестна, а оптимальный контроллер формируется на основе прямого взаимодействия с системой. О серьезности этого тренда свидетельствует появление профильной международной конференции L4DC (Learning for Dynamics and Control).

Методы RL применимы к управлению сложнейшими объектами:

Переосмыслению подвергся даже классический термин «робастное управление» (robust control), существовавший с 1960-х годов. Раньше под этим понималось решение минимаксной задачи: имея лишь приблизительную оценку динамики среды, инженер создавал контроллер, рассчитанный на самый худший гипотетический вариант отклонения. На практике это приводило к созданию чрезмерно консервативных систем управления.

Современный подход, по словам Камьяра Азиззаденешели, заключается в том, что системе больше не нужно оставаться консервативной на протяжении миллиардов шагов. Сделав всего несколько действий в реальном мире и собрав логи, алгоритм обновляет свои представления и ослабляет ограничения, если окружение оказалось не таким агрессивным, как предполагалось в теории. Данная концепция легла в основу работ профессора Элада Хазана и его группы, исследовавших «несобственное обучение для нестохастического управления» (improper learning for non-stochastic control), где вместо случайного шума закладываются целенаправленные враждебные возмущения.

При отправке человека на Луну ученые использовали стохастическую модель LQG (Linear Quadratic Gaussian), решенную Рудольфом Калманом, где параметры среды фиксированы, а шум подчинен распределению Гаусса. Однако до недавнего времени не существовало математического ответа на вопрос, как эффективно оценить параметры LQG-системы на основе малой выборки данных, если динамика неизвестна. В рамках стыка RL и теории управления ученые представили работу под названием «Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems», которая описывает механизм точного изучения параметров частично наблюдаемых систем.

Удивительным теоретическим открытием стало то, что алгоритму нет необходимости идеально выучивать саму физическую модель среды для построения оптимального регулятора. Оценка параметров модели может сходиться со стандартной скоростью $1/\sqrt{N}$ (где $N$ — число сэмплов), но сам контроллер благодаря квадратичной функции потерь сходится к оптимуму экспоненциально (невероятно быстро). Весь процесс обновления параметров происходит внутри единого цикла с использованием стандартного стохастического градиентного спуска (SGD), что открывает прямую дорогу к управлению сложными нелинейными системами.

📊 Чувствительность к рискам: почему средняя точность больше не устраивает бизнес 39:13

Традиционно машинное обучение опиралось на оптимизацию среднего значения функции потерь или максимизацию математического ожидания награды (expected return). Однако в критически важных сферах средние показатели теряют практический смысл. Камьяр Азиззаденешели приводит наглядные аналогии:

Бизнес и наука начали смещать фокус с математического ожидания на анализ «хвостов» распределений и оптимизацию специализированных функционалов риска. За последние два года в этой области произошел взрывной рост публикаций. Методология берет свое начало из теории перспектив Даниэля Канемана, постулирующей феномен «неприятия потерь» (loss aversion): условная потеря 10 долларов вызывает у человека значительно больше негативных эмоций, чем радость от приобретения аналогичной суммы. Следовательно, функция полезности насыщается, и алгоритмы принятия решений в рамках MDP (Марковских процессов принятия решений) должны это учитывать.

В современном риск-менеджменте активно применяются такие метрики, как CVaR (Conditional Value at Risk) — ожидаемое значение потерь при условии, что система уже оказалась в худшем 10%-ном квантиле распределения. Разные компании и регуляторы могут требовать оптимизации под разные квантили (10%, 12% или 15%) или под искаженные функционалы риска (distorted risk functionals), заимствованные из сферы страхования.

Главная математическая сложность лежит в плоскости офлайн-оценки рисков (off-policy risk assessment / evaluation, сокращенно OPERA). Имея исторический массив данных компании за 5 лет, аналитики хотят протестировать, например, 20 новых RL-политик. Если проверять каждую политику на тысячи кастомных функционалов риска, разработанных экспертами, возникает фундаментальная проблема множественного тестирования: статистическая достоверность результатов стремительно падает с ростом числа тестов.

Прорывом последних двух лет стало доказательство того, что можно проводить одновременную оценку бесконечного множества функционалов риска по имеющимся логам данных, сохраняя неизменную и гарантированную статистическую достоверность результатов без потери валидности.

🏗️ Структурированные MDP: отказ от «худшего сценария» ради эффективности 59:57

Еще одним доминирующим вектором развития глубокого RL является уход от абстрактных математических абстракций в сторону поиска скрытых структур внутри реального мира. Исторически академическая наука стремилась создавать алгоритмы, способные пережить любой гипотетический хаос. Однако реальные физические процессы подчиняются законам логики, геометрии и физики, а значит, они намного проще худших математических сценариев. Ученые выделили несколько ключевых подходов к структурированию сред:

  1. Абстракция состояний (State Abstraction): Метод, позволяющий группировать и кластеризовать миллиарды сырых состояний среды в небольшое количество базовых поведенческих кластеров. Например, среду из 10 000 состояний можно свести к 10 мета-состояниям, радикально снизив вычислительную сложность.
  2. MDP с богатыми наблюдениями (Rich Observation MDPs): Концепция предполагает, что избыточный поток входящих данных (например, пикселей с камеры) содержит в себе скрытые низкоразмерные представления, позволяющие однозначно восстановить истинное положение системы в пространстве. Примером служат архитектуры класса World Models, кодирующие пиксели в латентное пространство вариационных автокодировщиков (VAE), а также методы бисимуляции, исследуемые в работах Дэвида Абеля.
  3. Линейные MDP (Linear MDPs): Предположение о том, что функция перехода среды может быть представлена как линейная комбинация набора известных базовых процессов. В этом случае функция полезности (Q-function) становится строго линейной относительно признаков последнего слоя глубокой нейросети (как в архитектурах DQN), что упрощает оптимизацию. За последние два года на эту тему было опубликовано более 100 работ.
  4. Низкоранговые допущения (Low-Rank Assumptions): Подход, базирующийся на том, что огромные матрицы переходов состояний в реальности имеют низкий ранг. В мета-обучении это позволяет постулировать, что при смене сред и контекстов фундаментальная структура мира остается неизменной, а меняется лишь строго линейная изолированная часть системы.

Основная цель этих изысканий — кратное повышение эффективности выборки (sample efficiency). Структурирование позволяет ИИ обучаться на порядки быстрее и требовать значительно меньше дорогостоящих итераций взаимодействия со средой.

🎓 Кадровый голод в академии и будущее RL: прогнозы на 2022 год и далее 1:10:14

В отличие от сферы обработки естественного языка (NLP) или компьютерного зрения, где разработчик может скачать предобученную модель и запустить ее по принципу «plug-and-play», в обучении с подкреплением этот подход не работает. Прямой перенос базовой имплементации алгоритма DQN с одной задачи на другую практически всегда оборачивается неудачей. RL является зонтичной и междисциплинарной областью, требующей от инженера глубочайшей экспертизы в математике, теории управления и программировании. Многие крупные корпорации потратили годы и миллионы долларов, пытаясь запустить стандартные гитхаб-репозитории на своих производственных задачах, и потерпели крах из-за непонимания внутренних механик алгоритмов.

На фоне колоссального спроса со стороны индустрии (хедж-фонды, рекомендательные системы, беспилотный транспорт, производство) академический сектор столкнулся с опасным кадровым кризисом. Университеты стремительно теряют профессуру, уходящую в коммерческие структуры. Камьяр Азиззаденешели приводит в пример Францию, которая еще 5 лет назад обладала мощнейшей школой RL-теоретиков, но к настоящему моменту практически полностью лишилась этих кадров. В США рост числа специалистов идет медленнее, чем растет потребность рынка.

Гость выделил ключевые вехи развития технологии на ближайшие годы:

В финале беседы Камьяр Азиззаденешели подчеркнул, что создание сильного искусственного интеллекта (AGI) фундаментально невозможно без полного решения ключевых математических вызовов в области обучения с подкреплением.

💬 Цитаты

«Если вы хотите получить сильный искусственный интеллект, вам по определению необходимо сначала решить задачи обучения с подкреплением.»

Камьяр Азиззаденешели 1:21:44

«Вы не можете просто скачать алгоритм из GitHub и нажать кнопку запуска — в RL вам необходимо детально понимать каждую деталь.»

Камьяр Азиззаденешели 1:13:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📊 Цифры
🗓 Хронология
  1. 2015-2018 Первая масштабная и медийная волна фундаментальных прорывов в глубоком обучении с подкреплением.
  2. 2020 Камьяр Азиззаденешели принимает участие в сессии вопросов и ответов по RL в рамках виртуального фестиваля TWIMLfest.
  3. 2021 Период активного академического «сбора урожая», когда накопленные теоретические концепции RL начали массово адаптироваться под инженерную практику.
  4. 2022 Прогнозируемый гостем бум публикаций на стыке RL и робототехники, обусловленный выходом исследователей с карантина.
⚖️ Другая сторона
Искусственный интеллект глубокое обучение с подкреплением Камьяр Азиззаденешели теория управления робототехника