Как глубокое обучение с подкреплением меняет робототехнику и теорию управления

Сэм Черрингтон, ведущий подкаста The TWIML AI Podcast, обсудил с Камьяром Азиззаденешели, ассистентом профессора Университета Пердью, ключевые технологические тренды и прорывы в области глубокого обучения с подкреплением (Deep Reinforcement Learning, RL). В центре внимания ученых — переход от абстрактных математических задач к прикладному контролю робототехники, новые методы оценки рисков и внедрение строгих теоретических гарантий в алгоритмы искусственного интеллекта. Материал подводит итоги масштабных изменений в индустрии за последние годы и намечает вектор ее развития.

🤖 Робототехника и высокоскоростные полеты: эра жестких гарантий 5:10

Последние два года ознаменовались тесной интеграцией методов обучения с подкреплением в реальную робототехнику. Примечательно, что этот прорыв произошел вопреки пандемии, из-за которой многие исследователи были лишены постоянного доступа к своим лабораториям. Ключевым драйвером изменений стало то, что специалисты по робототехнике и теории управления глубоко освоили машинное обучение и начали самостоятельно разрабатывать специализированные RL-алгоритмы под конкретные инженерные нужды.

Исторически главным барьером для внедрения машинного обучения в робототехнику было отсутствие жестких гарантий. В инженерной культуре принято требовать от системы абсолютной стабильности: алгоритм должен работать предсказуемо, а не «случайно». Сегодня исследователи научились создавать архитектуры с встроенными математическими гарантиями, что позволяет развертывать роботов в экстремальных, ранее не изученных условиях — например, запускать автономные дроны при непредсказуемых шквалах ветра. Такой подход исключает необходимость многомесячной калибровки регуляторов и защищает дорогостоящее оборудование от аварий.

В контексте систем управления гарантии делятся на два ключевых типа:

Гарантия стабильности: математическое подтверждение того, что контроллер не приведет к падению шагающего робота, а управляющие сигналы не уйдут в бесконечность, что могло бы вызвать физический перегрев или разрушение двигателей.
Гарантия производительности: точная оценка того, насколько сильно траектория движения системы может отклониться от идеального заданного паттерна в условиях жестких внешних помех.

Одним из наиболее эффективных инструментов для достижения таких гарантий Камьяр Азиззаденешели называет концепцию Липшицевости (Lipschitzness). В качестве примера приводится задача посадки дрона или его полета у потолка, где из-за циркуляции воздуха возникают сложные и свирепые эффекты аэродинамики, которые невозможно описать классическими законами Ньютона.

Глубокие нейросети способны эффективно выучивать эти остаточные турбулентные паттерны. Чтобы гарантировать устойчивость закрытого контура управления, свойство Липшицевости закладывается непосредственно в архитектуру нейросети (например, через механизмы самонормализации), а не просто добавляется в функцию потерь в виде мягкого штрафа. Зная точную константу Липшица, инженеры проектируют контроллер, который гарантированно работает при первом же запуске «в дикой природе».

Параллельно развивается направление онлайн-метаобучения (online meta-learning) непосредственно в процессе полета. Если в симуляторе модель тренировалась лишь на нескольких конфигурациях ветра, то при реальном вылете алгоритм способен адаптивно подстраиваться под хаотические турбулентные потоки на лету. По словам гостя, индустрия совершила фундаментальный сдвиг: вместо поиска универсального алгоритма для «худшего математического сценария во Вселенной», ученые перешли к проектированию адаптивных алгоритмов под узкие прикладные задачи.

🕹️ От классической кибернетики к обучению: трансформация теории управления 18:08

Теория управления и кибернетика — исторически фундаментальные и консервативные области. Классический подход десятилетиями базировался на постулате, что параметры и математическая модель управляемой среды известны инженерам заранее, а сам процесс вычислений не предполагает элементов обучения. В последние три года ситуация изменилась: исследователи начали массово формулировать задачи теории управления в парадигме RL, где среда изначально неизвестна, а оптимальный контроллер формируется на основе прямого взаимодействия с системой. О серьезности этого тренда свидетельствует появление профильной международной конференции L4DC (Learning for Dynamics and Control).

Методы RL применимы к управлению сложнейшими объектами:

Атомными электростанциями;
Космическими аппаратами (например, при миссиях на Луну или Марс);
Системами охлаждения масштабных дата-центров.

Переосмыслению подвергся даже классический термин «робастное управление» (robust control), существовавший с 1960-х годов. Раньше под этим понималось решение минимаксной задачи: имея лишь приблизительную оценку динамики среды, инженер создавал контроллер, рассчитанный на самый худший гипотетический вариант отклонения. На практике это приводило к созданию чрезмерно консервативных систем управления.

Современный подход, по словам Камьяра Азиззаденешели, заключается в том, что системе больше не нужно оставаться консервативной на протяжении миллиардов шагов. Сделав всего несколько действий в реальном мире и собрав логи, алгоритм обновляет свои представления и ослабляет ограничения, если окружение оказалось не таким агрессивным, как предполагалось в теории. Данная концепция легла в основу работ профессора Элада Хазана и его группы, исследовавших «несобственное обучение для нестохастического управления» (improper learning for non-stochastic control), где вместо случайного шума закладываются целенаправленные враждебные возмущения.

При отправке человека на Луну ученые использовали стохастическую модель LQG (Linear Quadratic Gaussian), решенную Рудольфом Калманом, где параметры среды фиксированы, а шум подчинен распределению Гаусса. Однако до недавнего времени не существовало математического ответа на вопрос, как эффективно оценить параметры LQG-системы на основе малой выборки данных, если динамика неизвестна. В рамках стыка RL и теории управления ученые представили работу под названием «Logarithmic Regret Bound in Partially Observable Linear Dynamical Systems», которая описывает механизм точного изучения параметров частично наблюдаемых систем.

Удивительным теоретическим открытием стало то, что алгоритму нет необходимости идеально выучивать саму физическую модель среды для построения оптимального регулятора. Оценка параметров модели может сходиться со стандартной скоростью $1/\sqrt{N}$ (где $N$ — число сэмплов), но сам контроллер благодаря квадратичной функции потерь сходится к оптимуму экспоненциально (невероятно быстро). Весь процесс обновления параметров происходит внутри единого цикла с использованием стандартного стохастического градиентного спуска (SGD), что открывает прямую дорогу к управлению сложными нелинейными системами.

📊 Чувствительность к рискам: почему средняя точность больше не устраивает бизнес 39:13

Традиционно машинное обучение опиралось на оптимизацию среднего значения функции потерь или максимизацию математического ожидания награды (expected return). Однако в критически важных сферах средние показатели теряют практический смысл. Камьяр Азиззаденешели приводит наглядные аналогии:

Медицина: Если алгоритм назначения лекарств имеет точность 90%, для практикующего врача критически важно, что происходит в оставшихся 10% случаев — совершает ли машина мелкую ошибку или она убьет пациента?
Финансы: Хедж-фонд не примет торговую стратегию, которая математически обещает среднюю прибыль в размере $5 млрд в год, если среднеквадратичное отклонение (волатильность) составляет $10 млрд, создавая риск полного банкротства.
Социально-правовая сфера: Внедрение ИИ-советников в судебную или экономическую систему города может поднять среднее благосостояние граждан на 10%, однако детальный аудит может выявить, что весь этот рост обеспечен пятью новыми миллиардерами, тогда как положение остального населения ухудшилось.

Бизнес и наука начали смещать фокус с математического ожидания на анализ «хвостов» распределений и оптимизацию специализированных функционалов риска. За последние два года в этой области произошел взрывной рост публикаций. Методология берет свое начало из теории перспектив Даниэля Канемана, постулирующей феномен «неприятия потерь» (loss aversion): условная потеря 10 долларов вызывает у человека значительно больше негативных эмоций, чем радость от приобретения аналогичной суммы. Следовательно, функция полезности насыщается, и алгоритмы принятия решений в рамках MDP (Марковских процессов принятия решений) должны это учитывать.

В современном риск-менеджменте активно применяются такие метрики, как CVaR (Conditional Value at Risk) — ожидаемое значение потерь при условии, что система уже оказалась в худшем 10%-ном квантиле распределения. Разные компании и регуляторы могут требовать оптимизации под разные квантили (10%, 12% или 15%) или под искаженные функционалы риска (distorted risk functionals), заимствованные из сферы страхования.

Главная математическая сложность лежит в плоскости офлайн-оценки рисков (off-policy risk assessment / evaluation, сокращенно OPERA). Имея исторический массив данных компании за 5 лет, аналитики хотят протестировать, например, 20 новых RL-политик. Если проверять каждую политику на тысячи кастомных функционалов риска, разработанных экспертами, возникает фундаментальная проблема множественного тестирования: статистическая достоверность результатов стремительно падает с ростом числа тестов.

Прорывом последних двух лет стало доказательство того, что можно проводить одновременную оценку бесконечного множества функционалов риска по имеющимся логам данных, сохраняя неизменную и гарантированную статистическую достоверность результатов без потери валидности.

🏗️ Структурированные MDP: отказ от «худшего сценария» ради эффективности 59:57

Еще одним доминирующим вектором развития глубокого RL является уход от абстрактных математических абстракций в сторону поиска скрытых структур внутри реального мира. Исторически академическая наука стремилась создавать алгоритмы, способные пережить любой гипотетический хаос. Однако реальные физические процессы подчиняются законам логики, геометрии и физики, а значит, они намного проще худших математических сценариев. Ученые выделили несколько ключевых подходов к структурированию сред:

Абстракция состояний (State Abstraction): Метод, позволяющий группировать и кластеризовать миллиарды сырых состояний среды в небольшое количество базовых поведенческих кластеров. Например, среду из 10 000 состояний можно свести к 10 мета-состояниям, радикально снизив вычислительную сложность.
MDP с богатыми наблюдениями (Rich Observation MDPs): Концепция предполагает, что избыточный поток входящих данных (например, пикселей с камеры) содержит в себе скрытые низкоразмерные представления, позволяющие однозначно восстановить истинное положение системы в пространстве. Примером служат архитектуры класса World Models, кодирующие пиксели в латентное пространство вариационных автокодировщиков (VAE), а также методы бисимуляции, исследуемые в работах Дэвида Абеля.
Линейные MDP (Linear MDPs): Предположение о том, что функция перехода среды может быть представлена как линейная комбинация набора известных базовых процессов. В этом случае функция полезности (Q-function) становится строго линейной относительно признаков последнего слоя глубокой нейросети (как в архитектурах DQN), что упрощает оптимизацию. За последние два года на эту тему было опубликовано более 100 работ.
Низкоранговые допущения (Low-Rank Assumptions): Подход, базирующийся на том, что огромные матрицы переходов состояний в реальности имеют низкий ранг. В мета-обучении это позволяет постулировать, что при смене сред и контекстов фундаментальная структура мира остается неизменной, а меняется лишь строго линейная изолированная часть системы.

Основная цель этих изысканий — кратное повышение эффективности выборки (sample efficiency). Структурирование позволяет ИИ обучаться на порядки быстрее и требовать значительно меньше дорогостоящих итераций взаимодействия со средой.

🎓 Кадровый голод в академии и будущее RL: прогнозы на 2022 год и далее 1:10:14

В отличие от сферы обработки естественного языка (NLP) или компьютерного зрения, где разработчик может скачать предобученную модель и запустить ее по принципу «plug-and-play», в обучении с подкреплением этот подход не работает. Прямой перенос базовой имплементации алгоритма DQN с одной задачи на другую практически всегда оборачивается неудачей. RL является зонтичной и междисциплинарной областью, требующей от инженера глубочайшей экспертизы в математике, теории управления и программировании. Многие крупные корпорации потратили годы и миллионы долларов, пытаясь запустить стандартные гитхаб-репозитории на своих производственных задачах, и потерпели крах из-за непонимания внутренних механик алгоритмов.

На фоне колоссального спроса со стороны индустрии (хедж-фонды, рекомендательные системы, беспилотный транспорт, производство) академический сектор столкнулся с опасным кадровым кризисом. Университеты стремительно теряют профессуру, уходящую в коммерческие структуры. Камьяр Азиззаденешели приводит в пример Францию, которая еще 5 лет назад обладала мощнейшей школой RL-теоретиков, но к настоящему моменту практически полностью лишилась этих кадров. В США рост числа специалистов идет медленнее, чем растет потребность рынка.

Гость выделил ключевые вехи развития технологии на ближайшие годы:

Расцвет self-supervised методов в RL: Обучение на основе переноса знаний (transfer knowledge), когда опыт, накопленный нейросетью в одной среде, эффективно переиспользуется в принципиально иных симуляторах.
Бум на стыке робототехники и RL: Возвращение инженеров в физические лаборатории после снятия ковидных ограничений спровоцирует лавинообразный выход прикладных робототехнических систем нового поколения.
Появление специализированных фундаметальных моделей (Foundation Models): В отличие от NLP, где существует единая универсальная языковая модель, в RL в силу сложности среды сформируются крупные отраслевые базовые модели — изолированно для робототехники, для диалоговых систем, автономного вождения и видеоигр.

В финале беседы Камьяр Азиззаденешели подчеркнул, что создание сильного искусственного интеллекта (AGI) фундаментально невозможно без полного решения ключевых математических вызовов в области обучения с подкреплением.