Пирамида данных для манипуляций: как Stanford обучает роботов сложному поведению

Stanford Online 3,5 тыс. 1 ч 3 мин 4 мин 31.10.2025
Главное

На семинаре по робототехнике в Стэнфордском университете (Stanford Robotics Seminar ENGR319) ведущие исследователи представили концепцию «Пирамиды данных для манипуляций». В центре внимания — вопрос о том, как научить роботов выполнять сложные физические задачи, используя опыт людей, масштабные видеоданные из интернета и эффективное обучение с подкреплением.

🤖 Философия обучения: от младенцев до больших языковых моделей 0:10

По мнению спикера, современные роботы всё еще значительно уступают в ловкости даже годовалым детям или домашним животным . Ключевое отличие кроется в способности к «глубокой имитации» — возможности наблюдать за действиями со стороны (вид от третьего лица) и мгновенно воспроизводить их самостоятельно (вид от первого лица), адаптируя движения под собственную анатомию . В качестве примера приводится видео с собакой породы хаски, которая имитирует походку своего хозяина с травмированной ногой, перенося принцип движения с двух конечностей на четыре .

Другим важнейшим аспектом является «полировка» навыков. Спикер проводит аналогию с олимпийскими пловцами: можно часами смотреть видео их заплывов, но при первой попытке в бассейне новичок всё равно будет плавать плохо . Для достижения мастерства необходимо обучение с подкреплением (Reinforcement Learning, RL) непосредственно в физическом мире .

Эта концепция во многом повторяет путь развития больших языковых моделей (LLM):

🏗️ Пирамида данных для манипуляций 5:29

Для систематизации процесса обучения роботов была предложена трехуровневая структура — «Пирамида данных»:

  1. Нижний уровень: Масштабное предобучение. Обучение на огромном количестве данных из интернета (видео с людьми) или симуляций . Это закладывает априорные знания о мире.
  2. Средний уровень: Тонкая настройка под конкретное «тело» (Embodiment). Робот должен понять свои физические ограничения: длину манипулятора, грузоподъемность и диапазон движений .
  3. Верхний уровень: Обучение с подкреплением в реальном мире. Финальная стадия, позволяющая достичь сверхвысокой точности (например, попадание ниткой в игольное ушко) и надежности .

📹 Уровень 1: Извлечение знаний о движении из видео с YouTube 7:58

Главной проблемой существующих моделей (таких как Pi 0.5 от Physical Intelligence) спикер называет нехватку информации о динамике движений (motion level information) . Большинство интернет-данных статичны. Роботу же нужно знать, как именно брать чашку или наливать воду.

Исследовательская группа провела эксперимент по переносу знаний из человеческих видео на роботов:

Спикер признает, что 20% — это немного, но считает это прорывом, так как робот смог понять суть задачи (например, вытереть стол полотенцем или закрыть ноутбук) исключительно из наблюдений за людьми . Даже в случае неудач детальная оценка по «рубрикам» (начисление баллов за приближение к объекту, захват и т.д.) показала, что робот успешно осваивает траектории .

📈 Уровень 2: Закон масштабирования данных (Scaling Laws) 21:48

Второй проект исследователей был посвящен вопросу: сколько именно данных нужно собрать, чтобы робот эффективно работал в незнакомой среде? В ходе работы было собрано около 40 000 демонстраций и проведено более 15 000 тестов .

Ключевые выводы о масштабировании (Data Scaling Laws):

⚡ Уровень 3: Эффективное RL с «фундаментальными априори» 38:30

Обучение с подкреплением обычно требует миллионов итераций, что невозможно в реальности. Однако люди учатся быстро, так как у них есть «априорные знания» (priors). Команда спикера предложила метод Reinforcement Learning with Foundation Priors .

Метод использует три типа внешних сигналов для ускорения RL:

  1. Policy Prior (Априорная политика): Базовые знания о том, как двигаться, полученные на предыдущих этапах пирамиды .
  2. Value Prior (Априорная ценность): Оценка того, насколько робот близок к цели. Для этого используется модель VIP (Value Implicit Pretraining), обученная на видео с людьми .
  3. Success Reward (Сигнал успеха): Определение факта выполнения задачи с помощью GPT-4 .

Этот подход позволил обучать роботов сложным навыкам (наливание воды из чайника, открывание ящиков, игра в мини-гольф) всего за 60 минут реального времени . Процесс происходит полностью автономно: робот пробует, корректирует движения на основе «памяти мышц» и постепенно достигает успеха без ручного проектирования функций вознаграждения .

❓ Вопросы и ответы 50:03

В ходе дискуссии были затронуты следующие темы:

💬 Цитаты

«Собака хаски обладает глубоким пониманием поведения: она понимает, что значит ходить на двух травмированных ногах, даже если у нее их четыре.»

«В имитационном обучении разнообразие данных гораздо важнее, чем абсолютное количество собранных демонстраций.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Zero-shot
Способность модели выполнить задачу, которой её не обучали специально, используя накопленные общие знания.
Embodiment
Совокупность физических характеристик робота (корпус, приводы, сенсоры), определяющая его взаимодействие с миром.
Teleoperation
Дистанционное управление роботом человеком, обычно используемое для сбора данных.
📊 Цифры
🗓 Хронология
  1. Осень 2025 Проведение семинара Stanford Robotics Seminar ENGR319.
⚖️ Другая сторона
Инженерия Stanford Online reinforcement learning imitation learning GPT-4 robotics