Дорса Садик: «Почему больше данных может сделать вашего робота глупее»

Stanford Online 10,8 тыс. 56 мин 4 мин 13.03.2024
Главное

Прошло более десяти лет с тех пор, как глубокое обучение совершило революцию в распознавании изображений, но робототехника долгое время оставалась «тихой гаванью», где классические методы контроля доминировали над нейросетями. Однако в «эру больших предобученных моделей» (Foundation Models) ситуация кардинально меняется. На семинаре в Стэнфордском университете (Stanford University) Дорса Садик (Dorsa Sadigh), доцент кафедры компьютерных наук, представила видение того, как робототехника может перенять успех больших языковых моделей (LLM) и какие препятствия стоят на пути создания «GPT для роботов».

🤖 Робототехника в эпоху фундаментных моделей 4:51

Фундаментные модели (Foundation Models), по определению Садик, — это системы, обученные на огромных массивах разнообразных данных в масштабе интернета (текст, изображения, речь), которые затем могут быть адаптированы для множества последующих задач (downstream tasks) . В NLP это позволило одной модели выполнять перевод, анализ настроений и ответы на вопросы — задачи, которые раньше требовали отдельных диссертаций .

В робототехнике существует два основных подхода к использованию этой идеи:

  1. Построение специализированных фундаментных моделей для роботов: сбор интервального объема данных (видео людей, данные симуляций, логи взаимодействия роботов) для обучения универсальной репрезентации .
  2. Креативное использование существующих моделей: применение ChatGPT или Vision-Language Models (VLM) для планирования задач и написания кода управления без предварительного переобучения их на робототехнических данных .

🗡️ Voltron: объединение синтаксиса и семантики 14:47

Одной из главных проблем использования визуальных моделей в робототехнике является конфликт между «синтаксисом» и «семантикой». Садик выделяет две крайности в компьютерном зрении:

Для решения этой проблемы лаборатория Стэнфордского университета разработала модель Voltron .

Ключевые особенности Voltron:

В тестах по имитационному обучению (imitation learning) Voltron превзошел специализированные модели вроде R3M и MVP, особенно в задачах, требующих тонкой моторики и понимания инструкций . Эффектный пример — способность модели предугадывать момент захвата крана (intent inference) на видео с роботом, хотя модель обучалась только на видео с людьми .

📦 Проблема данных: от Open X-Embodiment до DROID 26:12

Если в NLP данных в избытке, то робототехнические данные дороги и дефицитны. Садик выделила несколько ключевых инициатив по сбору данных:

Разнообразие данных DROID позволяет роботам лучше обобщать навыки и игнорировать визуальные помехи (distractors) .

⚖️ Парадокс качества данных: «Меньше — значит лучше» 35:07

Самый неожиданный инсайт семинара связан с тем, что простое увеличение количества данных может ухудшить работу робота. Садик описала кейс, когда добавление идеальных демонстраций от второго оператора (Сидда) снизило успех робота с 14% до 7% .

Причина — мультимодальность и несовместимость. Разные люди выполняют одну и ту же задачу по-разному (например, поворачивают деталь в разные моменты времени). Когда робот обучается на противоречивых стилях, его политика «размывается», и он не может принять решение .

Стратегии борьбы с «плохими» данными:

  1. Фильтрация несовместимости: Автоматическое удаление данных, которые имеют низкое правдоподобие (likelihood) относительно основного набора . Это позволяет повысить успех с 38% до 54% даже при наличии шума .
  2. Активное руководство (Guided Collection): Использование интерфейса, который подсвечивается зеленым, если оператор действует «в стиле» модели, и красным, если он слишком отклоняется . Это помогло поднять результативность в задаче с перекладыванием яйца с 30% до 85% при том же объеме данных .
  3. Action Relabeling (алгоритм HYDRA): Вместо удаления данных, можно заставить людей (или алгоритмы) переразметить ключевые фазы движения, чтобы сделать действия более консистентными .

💻 Будущее: код как модальность 49:03

В завершение Садик отметила смену парадигмы в использовании LLM. Если раньше исследователи скептически относились к высокоуровневому планированию (проект SayCan), то теперь фокус смещается на генерацию самого управляющего кода (Code as Policies) .

Вместо того чтобы обучать нейросеть напрямую выводить токи в моторах, эффективнее использовать LLM для написания сложного кода на Python, который обращается к низкоуровневым примитивам робота. Это открывает путь к «социальному и физическому рассуждению» роботов, где они могут понимать сложные просьбы и даже обучать людей двигательным навыкам .

💬 Цитаты

«В тот момент, когда вы используете контрастивное обучение, вы уничтожаете все свои локальные и пространственные признаки.»

Дорса Садик 13:41

«Мы часто относимся к данным как к пассивному ресурсу, но мы можем активно направлять их сбор для повышения производительности.»

Дорса Садик 43:25
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Cross-embodiment
Способность алгоритмов обучаться на данных от разных физических конструкций роботов и переносить эти навыки.
Action Consistency
Степень единообразия действий при выполнении одной и той же задачи в одинаковых условиях.
Downstream tasks
Узкие прикладные задачи, на которых дообучается универсальная фундаментная модель.
📊 Цифры
🗓 Хронология
  1. 2017 Последнее выступление Дорсы Садик на аналогичном семинаре в Стэнфорде.
  2. 2023 Выход моделей RT-X и публикация данных Open X-Embodiment.
  3. 2024 Релиз новой версии модели Voltron X и подготовка данных DROID к выпуску.
⚖️ Другая сторона
Искусственный интеллект Stanford University Voltron DROID Open X-Embodiment Dorsa Sadigh