Камьяр Азиззаденешели: интеграция LLM и алгоритмов AlphaGo определит будущее робототехники

Интеграция больших языковых моделей (LLM) и генеративного ИИ производит революцию в сфере обучения с подкреплением (RL), превращая его из хаотичного метода проб и ошибок в структурированный процесс, управляемый абстрактными знаниями о мире. В рамках серии интервью AI Trends ведущий подкаста劈The TWIML AI Podcast Сэм разговаривает с экспертом компании Nvidia Камьяром Азиззаденешели о ключевых прорывах в робототехнике, управлении сложными системами и оценке рисков. Исследователи переосмысляют классические теории ИИ, закладывая фундамент для нового поколения адаптивных и разумных агентов.

🧠 Новый взгляд на обучение с подкреплением: эпоха абстракции знаний 1:06

В последние годы основное внимание ИИ-сообщества было приковано к большим языковым моделям и генеративному искусственному интеллекту. Однако, по мнению Камьяра Азиззаденешели, появление LLM открыло принципиально новые горизонты и для обучения с подкреплением (Reinforcement Learning, RL). Главный сдвиг парадигмы заключается в том, что генеративные инструменты теперь могут служить для RL-агентов средством абстракции знаний о мире.

Современные LLM гибки, мультимодальны и способны генерировать не только текст, но также изображения и видео, формируя своего рода «воображение» для ИИ-агентов. Как утверждает исследователь, благодаря этому сегодня при обучении RL-агента больше не нужно начинать с чистого листа. Модели могут использовать накопленные человечеством знания в качестве инструкций, что избавляет систему от необходимости проводить бесконечные слепые эксперименты методом проб и ошибок.

Камьяр Азиззаденешели выделяет два ключевых аспекта влияния генеративного ИИ на RL:

Глобальная абстракция знаний: предоставление агенту готовой базы данных и логического движка для понимания законов физического и социального мира.
Проектирование функций вознаграждения: использование LLM для автоматического конструирования целей и наград (reward design), что позволяет алгоритмам успешно справляться со сверхсложными задачами.

По оценке гостя, это переписывает как теоретическую, так и практическую базу дисциплины, делая доступными задачи, которые ранее казались недостижимыми.

Теория и практика: возвращение к иерархическому RL

С теоретической точки зрения исследователи сейчас фактически заново формулируют основы RL с условием, что у агента есть постоянный доступ к LLM. Камьяр Азиззаденешели вспоминает, что в 1995 году в научном сообществе активно обсуждалось концептуальное иерархическое обучение с подкреплением (Hierarchical RL). Однако в то время все подобные работы опирались на гипотетические допущения о существовании абстрактных иерархий, которые ИИ должен был как-то извлечь. Сегодня языковые модели стали тем самым реальным инструментом, который позволил воплотить эти старые теоретические выкладки в жизнь.

На практике это выражается в переходе к интерактивному обучению. В прошлом для обучения робота инженерам приходилось вручную прописывать цели, функции стоимости и жесткие алгоритмы оптимизации. Теперь с роботом можно общаться на естественном языке, помогая ему исследовать мир и последовательно выстраивать шаги для достижения цели.

🍝 Самолёты, роботы и паста: примеры интеграции ИИ в реальный мир 11:33

Чтобы проиллюстрировать разницу между классическим RL и новым подходом, Камьяр Азиззаденешели приводит наглядную аналогию с роботом на кухне, которому поручено приготовить пасту.

В рамках старой парадигмы агенту задавали простую бинарную функцию вознаграждения: если паста приготовлена — получаешь 1 балл, если нет — 0. Не имея никаких базовых представлений о мире, робот в процессе случайного поиска (exploration) мог рассматривать сборку самолёта на кухне как вполне валидную траекторию действий. Он действовал вслепую, точно так же, как ранние алгоритмы DQN начинали играть в игры Atari с абсолютного нуля.

Современный подход с использованием LLM радикально меняет этот процесс:

Модель разбивает комплексную задачу на логические подзадачи: открыть шкаф, достать пасту, вскипятить воду.
Она жестко сужает пространство возможных состояний и действий, исключая абсурдные варианты поведения.
Мультимодальный ИИ фиксирует действия робота на видео, формирует текстовое описание (caption) происходящего и сравнивает его с исходной инструкцией, динамически начисляя или отнимая баллы.

Аналогичный пример приводится с задачей взять ключ со стола и открыть дверь. Старый агент потратил бы миллионы шагов, упрямо пытаясь пробить закрытую дверь головой или взаимодействуя со стульями. LLM сразу объясняет агенту концепцию ключа, и задача решается всего за два шага.

Анализ ключевых исследований: Voyager и World Models

Собеседники подробно разбирают знаковую научную работу Voyager, посвященную интеграции ИИ в среду игры Minecraft. В этом проекте вместо стандартного обучения нейросети алгоритмам управления, LLM напрямую генерирует исполняемый программный код. Если код работает некорректно, языковая модель получает обратную связь от среды и автоматически его корректирует. Система использует GPT-4 для управления инвентарем и выстраивания траектории обучения (curriculum learning), ставя перед агентом последовательные достижимые подцели.

Другое важнейшее направление описывается в исследовании Mastering Diverse Domains Through World Models. Здесь генеративный ИИ используется для создания «внутреннего воображения» робота. Вместо того чтобы сразу выполнять команду, модель визуализирует целевую траекторию и конечное состояние. Агент принимает этот воображаемый образ за целевое состояние и выстраивает алгоритм его достижения, непрерывно совершенствуясь во множестве симуляционных доменов.

✈️ Прорыв в промышленном контроле и робототехнике 25:32

Хотя широкая публика больше увлечена чат-ботами, Камьяр Азиззаденешели подчеркивает, что в индустрии незаметно происходит массовое внедрение RL в реальные системы управления (control). Ведущий Сэм задается вопросом: зачем заменять традиционные методы управления, основанные на проверенных законах физики и эвристиках, на алгоритмы ИИ?

Гость объясняет это на примере проектирования крыльев для малых скоростных самолётов. Взаимодействие крыла с турбулентными потоками воздуха математически описывается сложнейшими уравнениями гидродинамики. Для точного расчета оптимального поведения крыла в каждую секунду полета в реальном времени потребовался бы целый месяц непрерывных вычислений на суперкомпьютере.

Инженеры десятилетиями создавали упрощенные приближения для таких динамических систем. Однако, как показывает практика, один правильно обученный ИИ-агент способен превзойти традиционные аэродинамические решения на 30–40%. Небольшие авиационные компании вместо 5–6 лет дорогостоящей ручной настройки параметров теперь просто внедряют методы RL.

Другие яркие примеры коммерческого использования RL, озвученные в подкасте:

Навигация дронов в экстремальных условиях: традиционные квадрокоптеры могут стабильно летать при скорости ветра до 5 м/с. Обученный за 5 минут онлайн-адаптации RL-агент позволяет дрону легко выполнять сложные маневры при шквалистом ветре до 20 м/с.
Инерциальная локализация (IMU): алгоритмы RL активно внедряются в умные часы и смартфоны для фильтрации шумов датчиков и точного позиционирования.

При этом в авиации и робототехнике применяются различные типы RL. Для дронов используется предварительное офлайн-обучение в сочетании с агрессивной онлайн-адаптацией на основе градиента политики (policy gradient methods), поскольку характер турбулентного ветра постоянно и непредсказуемо меняется. В задачах управления самолетами великолепные результаты показывают методы модельного обучения с подкреплением (model-based RL).

Проект Aloha: имитационное обучение и человеческий фидбек

В качестве важной вехи уходящего года спикеры упоминают проект Aloha (и его развитие Mobile Aloha), созданный Челси Финн (Chelsea Finn) и ее командой в Стэнфордском университете. Разработчикам удалось интегрировать сложные системы и построить гибких, ловких и при этом недорогих роботов, способных раскладывать вещи, открывать двери и выполнять домашние обязанности.

С технической точки зрения в основе Aloha лежит имитационное обучение (imitation learning): оператор изначально управляет роботом вручную, демонстрируя задачу. По мнению Камьяра Азиззаденешели, будущее робототехники лежит на том же пути, по которому развивались языковые модели: массивное предварительное обучение на терабайтах пассивного видеоматериала с последующей тонкой настройкой под контролем человека по методу RLHF (Reinforcement Learning from Human Feedback).

📈 Математика риска, справедливость и требования закона 41:49

Активное развертывание RL в коммерческом секторе остро ставит вопрос оценки рисков и безопасности. Камьяр Азиззаденешели разделяет эту проблему на два направления: физическую безопасность систем (например, предотвращение крушения самолета) и управление рисками в результатах (в таких сферах, как финансовые рынки или здравоохранение).

Исторически алгоритмы машинного обучения оптимизировали функцию потерь, ориентируясь на среднее математическое ожидание. Но в реальной жизни средние показатели могут маскировать катастрофические сценарии. Гость приводит наглядную аналогию: если ИИ оптимизирует распределение богатства в США и заявляет об увеличении общего благосостояния на 5%, на поверку может оказаться, что верхний 1% населения стал баснословно богат, а остальные 99% обеднели. Такой исход неприемлем. В здравоохранении алгоритм, повышающий средние показатели выживаемости на 5%, но при этом гарантированно убивающий несколько конкретных пациентов, также использовать нельзя.

В связи с этим в алгоритмы RL внедряются сложные математические функционалы риска, оптимизирующие дисперсию наград. Интересный исторический факт, упомянутый в беседе: пионерами математического моделирования рисков в 1950–1960-х годах были страховые компании, и многие современные формулы в ИИ названы в честь старых страховых полисов. Сегодня эти подходы становятся стандартом в банковском секторе, медицине и страховании.

Помимо математических трудностей, перед индустрией встает юридический вызов. Законы о справедливости (fairness) и недопущении дискриминации при выдаче кредитов или лечении написаны юридическим языком, а не математическими уравнениями. Перевод двусмысленных правовых норм в строгие формулы для функций вознаграждения ИИ — это, по признанию исследователя, колоссальный труд. Гость считает, что по мере экспансии ИИ Конгресс США будет вынужден оперативно разрабатывать новые законы для жесткого регулирования алгоритмов в банковской и медицинской сферах.

🔮 Будущее ИИ: уроки AlphaGo и дефицит вычислительных мощностей 51:18

Оценивая перспективы на ближайшие 1–5 лет, Камьяр Азиззаденешели призывает переосмыслить фундаментальные методы обучения. До сих пор в рекомендательных системах (включая такие гиганты, как Amazon) самым популярным и эффективным алгоритмом оставался классический стохастический градиентный спуск (SGD). SGD отлично работает, когда мы не делаем никаких предположений об абстракции мира. Однако в присутствии LLM алгоритм SGD перестает быть оптимальным.

Исследователь утверждает, что ИИ должен перейти от парадигмы слепого минимизатора долгосрочных потерь к алгоритмам активного сбора информации (information gathering). Имея доступ к языковой модели, агент перед совершением действия может «задать вопрос» базе знаний, взвесить неопределенность и направить процесс исследования мира целенаправленно и осознанно, кардинально изменив классический баланс Exploration/Exploitation.

Важнейший урок для индустрии, по мнению гостя, кроется в триумфе алгоритма AlphaGo. В свое время инженеры годами безуспешно пытались обучить одну гигантскую «рефлекторную» модель, которая по входящему состоянию доски сразу выдавала бы идеальный следующий ход. Оказалось, что такое сквозное обучение чисто текстовых или визуальных моделей требует запредельных ресурсов. Разработчики AlphaGo нашли изящное решение — объединили относительно небольшую нейросеть с локальным поиском по дереву (Monte Carlo Tree Search, MCTS), найдя идеальный баланс между размером модели, объемом данных и вычислениями.

Камьяр Азиззаденешели прогнозирует аналогичную эволюцию для больших языковых моделей:

Современные LLM работают как чисто рефлекторные системы: они получают на вход последовательность токенов и мгновенно выдают следующее слово.
Будущие архитектуры объединят рефлекторную языковую модель со встроенным пошаговым поиском по дереву вариантов (state-based reasoning).
ИИ сможет внутренне генерировать множество альтернативных сценариев, оценивать их логичность и выдавать выверенное решение, что обеспечит экспоненциальный рост интеллектуальных способностей без механического раздувания количества параметров нейросети.

Ограничения инфраструктуры и кадровый голод

Отвечая на вопрос о главном сдерживающем фактором на пути к сильному искусственному интеллекту (AGI), исследователь заявляет, что на данный момент человечество уперлось в дефицит вычислительных мощностей. Для создания мультимодального универсального RL-агента, способного одновременно торговать на бирже, мыть посуду и проектировать ракеты, у нас просто нет достаточного количества чипов. Камьяр Азиззаденешели иронизирует, что пока ИИ-сообщество занято зарабатыванием денег на узких коммерческих нишах, у инженеров есть время «взять передышку» и подождать, пока аппаратное обеспечение догонит амбиции ученых.

При этом гость смотрит в будущее с оптимизмом: по его мнению, прогресс будет идти за счет инкрементального улучшения полупроводников (например, перехода техпроцессов от 10 нм к 3 нм и разработки новых GPU в Nvidia), а не за счет гипотетических квантовых компьютеров, которые пока остаются делом далекого будущего. Рост производительности железа даже в 10 раз позволит штурмовать сложнейшие научные вызовы.

Куда сильнее ученого беспокоит проблема кадрового голода в академической среде. В последнее время коммерческие корпорации агрессивно переманивают ведущих профессоров и исследователей в области RL в индустрию. Это приводит к тому, что в университетах становится некому обучать новое поколение аспирантов и студентов. Тем не менее ИИ-сообщество демонстрирует невероятную гибкость: к примеру, в период с 2016 по 2017 год количество научных работ по обучению с подкреплением, поданных на престижную конференцию NeurIPS, увеличилось в четыре раза. Ученые быстро адаптируются к меняющимся трендам, и интеграция LLM в RL, вне сомнений, станет главным катализатором прорывов ближайших лет.