Расс Тедрак: «Мы находимся на этапе электродов в лягушках»

Stanford Online 23,5 тыс. 1 ч 22 мин 3 мин 05.06.2025
Главное

Будущее робототехники: как масштабирование моделей поведения меняет манипуляции 0:09

Современная робототехника переживает переломный момент: переход от узкоспециализированных систем к «большим моделям поведения» (Large Behavior Models, LBM), способным обучаться на широком спектре задач. Расс Тедрак (Russ Tedrake), профессор Массачусетского технологического института (MIT) и ключевая фигура в исследованиях TRI (Toyota Research Institute), в рамках Стэнфордского семинара подробно разобрал, как многозадачное обучение меняет способность роботов взаимодействовать с физическим миром. Главная идея заключается в том, что использование больших объемов разнообразных данных для предварительного обучения позволяет роботам достигать высокой ловкости даже при малом количестве примеров для конкретной задачи.

🤖 Что такое большие модели поведения (LBM) 11:11

Традиционный подход в обучении роботов — это «имитационное обучение для конкретной задачи» (single-task imitation learning), где для каждого нового действия (например, складывания футболки) требуется проводить сотни демонстраций. Тедрак предлагает иную концепцию: создание единой модели, «насмотренной» на сотнях различных сценариев, собранных из реального мира и симуляций.

🧪 Эксперименты: почему предобучение работает 7:10

Чтобы доказать эффективность своего метода, исследователи TRI сравнили «чистые» однозадачные модели с предобученными LBM, дообученными (fine-tuned) на той же самой выборке. Результаты, по словам Тедрака, весьма показательны:

  1. Ловкость и восстановление: Роботы, обученные с использованием LBM, показывают более плавные траектории и — что особенно важно — способность «восстанавливаться» после мелких ошибок. Примером служит нарезка яблок, где модель успешно справляется с неожиданными отклонениями, которые привели бы к сбою в однозадачной системе.
  2. Экономия данных: Предобученная модель достигает высоких результатов, используя лишь 15% данных, которые потребовались бы для обучения с нуля. Это критически важно для малого бизнеса, у которого нет бюджета на десятки тысяч демонстраций.
  3. Статистическая честность: Тедрак делает особый акцент на строгом научном подходе. Он настаивает на проведении «слепых» рандомизированных тестов и использовании 95% доверительных интервалов, чтобы исключить p-hacking и другие ошибки интерпретации, характерные для сферы AI.

🛠 Роль симуляций: «неизбежная реальность» 17:21

Один из самых болезненных вопросов для робототехников — доверие к симуляторам. Тедрак прямо заявляет: полноценная оценка в реальном мире слишком дорога и сложна, поэтому симуляция стала основным инструментом тестирования.

🔭 Взгляд в будущее 50:56

В завершение дискуссии Тедрак отметил, что текущий этап робототехники напоминает «стадию электродов в лягушках» в истории физики: мы делаем интересные вещи, но еще не имеем фундаментальных уравнений, подобных уравнениям Максвелла, которые бы полностью объясняли поведение наших систем.

💬 Цитаты

«Мы находимся на стадии электродов и лягушек. Это довольно хорошо, но настоящая наука — за нами.»

«LBM не всегда выполняют задачу правильно, но они всегда выглядят так, будто совершают манипуляцию.»

Расс Тедрак 48:18
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
LBM
Large Behavior Models, большие модели поведения, способные обучаться multitask-манипуляциям.
Diffusion Policy
Метод обучения роботов, использующий диффузионные модели для генерации действий на основе визуальных данных.
p-hacking
Манипуляция статистическими данными для получения «значимого» результата.
Teleoperation
Удаленное управление роботом человеком для сбора демонстрационных данных.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Large Behavior Models TRI Diffusion Policy Robot Dexterity