# Пирамида данных для манипуляций: как Stanford обучает роботов сложному поведению

Источник: https://www.youtube.com/watch?v=99wIpauDEmY
Канал: Stanford Online
Опубликовано: 31.10.2025

---

На семинаре по робототехнике в Стэнфордском университете (Stanford Robotics Seminar ENGR319) ведущие исследователи представили концепцию «Пирамиды данных для манипуляций». В центре внимания — вопрос о том, как научить роботов выполнять сложные физические задачи, используя опыт людей, масштабные видеоданные из интернета и эффективное обучение с подкреплением.

## 🤖 Философия обучения: от младенцев до больших языковых моделей
[[JUMP:00:10]]

По мнению спикера, современные роботы всё еще значительно уступают в ловкости даже годовалым детям или домашним животным [00:49]. Ключевое отличие кроется в способности к «глубокой имитации» — возможности наблюдать за действиями со стороны (вид от третьего лица) и мгновенно воспроизводить их самостоятельно (вид от первого лица), адаптируя движения под собственную анатомию [01:51]. В качестве примера приводится видео с собакой породы хаски, которая имитирует походку своего хозяина с травмированной ногой, перенося принцип движения с двух конечностей на четыре [01:34].

Другим важнейшим аспектом является «полировка» навыков. Спикер проводит аналогию с олимпийскими пловцами: можно часами смотреть видео их заплывов, но при первой попытке в бассейне новичок всё равно будет плавать плохо [03:13]. Для достижения мастерства необходимо обучение с подкреплением (Reinforcement Learning, RL) непосредственно в физическом мире [04:16].

Эта концепция во многом повторяет путь развития больших языковых моделей (LLM):

*   **Предобучение (Pretraining):** Чтение огромных массивов текста в интернете для понимания общих принципов.
*   **Обучение с подкреплением (RLHF):** Практика (например, написание кода) и получение обратной связи для исправления ошибок и повышения точности [05:00].

## 🏗️ Пирамида данных для манипуляций
[[JUMP:05:29]]

Для систематизации процесса обучения роботов была предложена трехуровневая структура — «Пирамида данных»:

1.  **Нижний уровень: Масштабное предобучение.** Обучение на огромном количестве данных из интернета (видео с людьми) или симуляций [05:44]. Это закладывает априорные знания о мире.
2.  **Средний уровень: Тонкая настройка под конкретное «тело» (Embodiment).** Робот должен понять свои физические ограничения: длину манипулятора, грузоподъемность и диапазон движений [06:16].
3.  **Верхний уровень: Обучение с подкреплением в реальном мире.** Финальная стадия, позволяющая достичь сверхвысокой точности (например, попадание ниткой в игольное ушко) и надежности [06:33].

## 📹 Уровень 1: Извлечение знаний о движении из видео с YouTube
[[JUMP:07:58]]

Главной проблемой существующих моделей (таких как Pi 0.5 от Physical Intelligence) спикер называет нехватку информации о динамике движений (motion level information) [09:10]. Большинство интернет-данных статичны. Роботу же нужно знать, как именно брать чашку или наливать воду.

Исследовательская группа провела эксперимент по переносу знаний из человеческих видео на роботов:

*   **Метод:** Сбор видео, где люди выполняют манипуляции, и извлечение ключевых точек рук. Эти движения переносились на морфологию робота [13:27].
*   **Данные:** Смешивание данных телеуправления роботом и видео с людьми в единый массив для сквозного обучения [14:24].
*   **Результат:** Модель, которая никогда не видела данных о выполнении конкретной задачи роботом (zero-shot), показала успех в 20% случаев [15:13].

Спикер признает, что 20% — это немного, но считает это прорывом, так как робот смог понять суть задачи (например, вытереть стол полотенцем или закрыть ноутбук) исключительно из наблюдений за людьми [17:17]. Даже в случае неудач детальная оценка по «рубрикам» (начисление баллов за приближение к объекту, захват и т.д.) показала, что робот успешно осваивает траектории [20:38].

## 📈 Уровень 2: Закон масштабирования данных (Scaling Laws)
[[JUMP:21:48]]

Второй проект исследователей был посвящен вопросу: сколько именно данных нужно собрать, чтобы робот эффективно работал в незнакомой среде? В ходе работы было собрано около 40 000 демонстраций и проведено более 15 000 тестов [24:55].

Ключевые выводы о масштабировании (Data Scaling Laws):

*   **Разнообразие важнее количества:** Для обобщения навыков гораздо эффективнее собрать данные в 32 различных локациях с разными объектами, чем записать тысячи повторений в одной лаборатории [29:10].
*   **Точка насыщения:** Если данных из одной среды становится слишком много, прирост производительности замедляется (плато) [31:33].
*   **Оптимальная схема:** Исследователи выяснили, что для запуска нового навыка в дикой природе (например, вытаскивание зарядки из розетки) достаточно около 1 600 демонстраций, распределенных по 32 локациям (по 50 на каждую) [35:07]. Это позволяет достичь успеха в 80–90% случаев всего за один день сбора данных [35:34].

## ⚡ Уровень 3: Эффективное RL с «фундаментальными априори»
[[JUMP:38:30]]

Обучение с подкреплением обычно требует миллионов итераций, что невозможно в реальности. Однако люди учатся быстро, так как у них есть «априорные знания» (priors). Команда спикера предложила метод **Reinforcement Learning with Foundation Priors** [39:15].

Метод использует три типа внешних сигналов для ускорения RL:

1.  **Policy Prior (Априорная политика):** Базовые знания о том, как двигаться, полученные на предыдущих этапах пирамиды [42:38].
2.  **Value Prior (Априорная ценность):** Оценка того, насколько робот близок к цели. Для этого используется модель VIP (Value Implicit Pretraining), обученная на видео с людьми [43:05].
3.  **Success Reward (Сигнал успеха):** Определение факта выполнения задачи с помощью GPT-4 [43:46].

Этот подход позволил обучать роботов сложным навыкам (наливание воды из чайника, открывание ящиков, игра в мини-гольф) всего за **60 минут** реального времени [46:54]. Процесс происходит полностью автономно: робот пробует, корректирует движения на основе «памяти мышц» и постепенно достигает успеха без ручного проектирования функций вознаграждения [47:37].

## ❓ Вопросы и ответы
[[JUMP:50:03]]

В ходе дискуссии были затронуты следующие темы:

*   **Генеративное видео (Sora):** Спикер полагает, что в будущем сгенерированные видео от OpenAI Sora или аналогичных моделей смогут заменить YouTube в качестве источника данных для предобучения роботов [51:53].
*   **Человек в цикле (Dagger):** Хотя помощь человека полезна, конечная цель — заставить робота обучаться самостоятельно, решая задачи сброса среды (reset) и обеспечения безопасности автономно [54:52].
*   **Ошибки оборудования:** Около 70% неудач на этапе предобучения связаны с невозможностью выполнить деликатные манипуляции (захват), тогда как навигация манипулятора к цели (грубое движение) работает гораздо лучше [57:02]. Спикер считает, что это отчасти вызвано ограничениями механических захватов (низкая степень свободы) [1:02:05].