# Дорса Садик: «Почему больше данных может сделать вашего робота глупее»

Источник: https://www.youtube.com/watch?v=zggAEHm8dXc
Канал: Stanford Online
Опубликовано: 13.03.2024

---

Прошло более десяти лет с тех пор, как глубокое обучение совершило революцию в распознавании изображений, но робототехника долгое время оставалась «тихой гаванью», где классические методы контроля доминировали над нейросетями. Однако в «эру больших предобученных моделей» (Foundation Models) ситуация кардинально меняется. На семинаре в **Стэнфордском университете (Stanford University)** Дорса Садик (Dorsa Sadigh), доцент кафедры компьютерных наук, представила видение того, как робототехника может перенять успех больших языковых моделей (LLM) и какие препятствия стоят на пути создания «GPT для роботов».

## 🤖 Робототехника в эпоху фундаментных моделей
[[JUMP:04:51]]

Фундаментные модели (Foundation Models), по определению Садик, — это системы, обученные на огромных массивах разнообразных данных в масштабе интернета (текст, изображения, речь), которые затем могут быть адаптированы для множества последующих задач (downstream tasks) [05:27]. В NLP это позволило одной модели выполнять перевод, анализ настроений и ответы на вопросы — задачи, которые раньше требовали отдельных диссертаций [06:07].

В робототехнике существует два основных подхода к использованию этой идеи:

1.  **Построение специализированных фундаментных моделей для роботов:** сбор интервального объема данных (видео людей, данные симуляций, логи взаимодействия роботов) для обучения универсальной репрезентации [07:13].
2.  **Креативное использование существующих моделей:** применение ChatGPT или Vision-Language Models (VLM) для планирования задач и написания кода управления без предварительного переобучения их на робототехнических данных [09:14].

## 🗡️ Voltron: объединение синтаксиса и семантики
[[JUMP:14:47]]

Одной из главных проблем использования визуальных моделей в робототехнике является конфликт между «синтаксисом» и «семантикой». Садик выделяет две крайности в компьютерном зрении:

*   **Masked Autoencoding (MAE):** Модели обучаются восстанавливать замаскированные части изображения. Они отлично схватывают геометрию и края объектов (синтаксис), что критично для захвата, но не понимают смысла действий [11:14].
*   **Contrastive Learning (например, CLIP):** Эти модели связывают изображения с текстом. Они понимают концепцию «налить жидкость» (семантика), но в процессе обучения разрушают локальные пространственные признаки, необходимые для точного движения [13:41].

Для решения этой проблемы лаборатория Стэнфордского университета разработала модель **Voltron** [16:20].

### Ключевые особенности Voltron:

*   **Основа MAE:** Сохраняет детализацию пикселей для понимания формы объектов [17:03].
*   **Языковая обусловленность:** Энкодер учитывает текстовые описания (например, «очистка моркови»), что добавляет семантику [17:15].
*   **Динамика (Multi-frame):** Модель анализирует не один кадр, а пары кадров, чтобы понимать физические изменения в мире [17:56].
*   **Генерация языка:** Модель должна уметь описывать изменения в сцене, что углубляет понимание контекста [18:34].

В тестах по имитационному обучению (imitation learning) Voltron превзошел специализированные модели вроде R3M и MVP, особенно в задачах, требующих тонкой моторики и понимания инструкций [22:14]. Эффектный пример — способность модели предугадывать момент захвата крана (intent inference) на видео с роботом, хотя модель обучалась только на видео с людьми [23:48].

## 📦 Проблема данных: от Open X-Embodiment до DROID
[[JUMP:26:12]]

Если в NLP данных в избытке, то робототехнические данные дороги и дефицитны. Садик выделила несколько ключевых инициатив по сбору данных:

*   **Open X-Embodiment (RT-X):** Коллаборация 21 института (включая Google), объединившая данные от разных типов роботов (cross-embodiment) в одну базу для обучения универсальной политики [26:51].
*   **DROID:** Проект 13 институтов, направленный на сбор данных «в дикой природе» (in-the-wild) [27:59]. В отличие от RT-X, здесь используется стандартизированная платформа (робот Franka с одинаковыми камерами), которую студенты перемещают по реальным локациям — от общежитий (Munger) до кухонь [28:41].

Разнообразие данных DROID позволяет роботам лучше обобщать навыки и игнорировать визуальные помехи (distractors) [32:38].

## ⚖️ Парадокс качества данных: «Меньше — значит лучше»
[[JUMP:35:07]]

Самый неожиданный инсайт семинара связан с тем, что простое увеличение количества данных может *ухудшить* работу робота. Садик описала кейс, когда добавление идеальных демонстраций от второго оператора (Сидда) снизило успех робота с 14% до 7% [36:38].

Причина — **мультимодальность и несовместимость**. Разные люди выполняют одну и ту же задачу по-разному (например, поворачивают деталь в разные моменты времени). Когда робот обучается на противоречивых стилях, его политика «размывается», и он не может принять решение [37:32].

### Стратегии борьбы с «плохими» данными:

1.  **Фильтрация несовместимости:** Автоматическое удаление данных, которые имеют низкое правдоподобие (likelihood) относительно основного набора [39:36]. Это позволяет повысить успех с 38% до 54% даже при наличии шума [40:17].
2.  **Активное руководство (Guided Collection):** Использование интерфейса, который подсвечивается зеленым, если оператор действует «в стиле» модели, и красным, если он слишком отклоняется [42:27]. Это помогло поднять результативность в задаче с перекладыванием яйца с 30% до 85% при том же объеме данных [43:11].
3.  **Action Relabeling (алгоритм HYDRA):** Вместо удаления данных, можно заставить людей (или алгоритмы) переразметить ключевые фазы движения, чтобы сделать действия более консистентными [45:43].

## 💻 Будущее: код как модальность
[[JUMP:49:03]]

В завершение Садик отметила смену парадигмы в использовании LLM. Если раньше исследователи скептически относились к высокоуровневому планированию (проект SayCan), то теперь фокус смещается на генерацию самого управляющего кода (**Code as Policies**) [49:43].

Вместо того чтобы обучать нейросеть напрямую выводить токи в моторах, эффективнее использовать LLM для написания сложного кода на Python, который обращается к низкоуровневым примитивам робота. Это открывает путь к «социальному и физическому рассуждению» роботов, где они могут понимать сложные просьбы и даже обучать людей двигательным навыкам [51:16].