Расс Тедрак: «Мы находимся на этапе электродов в лягушках»

Будущее робототехники: как масштабирование моделей поведения меняет манипуляции 0:09

Современная робототехника переживает переломный момент: переход от узкоспециализированных систем к «большим моделям поведения» (Large Behavior Models, LBM), способным обучаться на широком спектре задач. Расс Тедрак (Russ Tedrake), профессор Массачусетского технологического института (MIT) и ключевая фигура в исследованиях TRI (Toyota Research Institute), в рамках Стэнфордского семинара подробно разобрал, как многозадачное обучение меняет способность роботов взаимодействовать с физическим миром. Главная идея заключается в том, что использование больших объемов разнообразных данных для предварительного обучения позволяет роботам достигать высокой ловкости даже при малом количестве примеров для конкретной задачи.

🤖 Что такое большие модели поведения (LBM) 11:11

Традиционный подход в обучении роботов — это «имитационное обучение для конкретной задачи» (single-task imitation learning), где для каждого нового действия (например, складывания футболки) требуется проводить сотни демонстраций. Тедрак предлагает иную концепцию: создание единой модели, «насмотренной» на сотнях различных сценариев, собранных из реального мира и симуляций.

Архитектурный подход: Команда TRI использует модифицированную архитектуру диффузионных политик (diffusion policy), где вместо стандартного U-Net применяется более масштабируемый DiT (Diffusion Transformer).
Языковая обусловленность: Модели получают текстовые инструкции, что позволяет связывать физические действия с естественным языком, хотя, по признанию Тедрака, такие модели пока не всегда идеально следуют сложным языковым командам.
Смена парадигмы: В отличие от старых методов управления, LBM пытаются воспроизвести некий аналог «здравого смысла» для физических манипуляций, что обеспечивает роботам неожиданную устойчивость (robustness).

🧪 Эксперименты: почему предобучение работает 7:10

Чтобы доказать эффективность своего метода, исследователи TRI сравнили «чистые» однозадачные модели с предобученными LBM, дообученными (fine-tuned) на той же самой выборке. Результаты, по словам Тедрака, весьма показательны:

Ловкость и восстановление: Роботы, обученные с использованием LBM, показывают более плавные траектории и — что особенно важно — способность «восстанавливаться» после мелких ошибок. Примером служит нарезка яблок, где модель успешно справляется с неожиданными отклонениями, которые привели бы к сбою в однозадачной системе.
Экономия данных: Предобученная модель достигает высоких результатов, используя лишь 15% данных, которые потребовались бы для обучения с нуля. Это критически важно для малого бизнеса, у которого нет бюджета на десятки тысяч демонстраций.
Статистическая честность: Тедрак делает особый акцент на строгом научном подходе. Он настаивает на проведении «слепых» рандомизированных тестов и использовании 95% доверительных интервалов, чтобы исключить p-hacking и другие ошибки интерпретации, характерные для сферы AI.

🛠 Роль симуляций: «неизбежная реальность» 17:21

Один из самых болезненных вопросов для робототехников — доверие к симуляторам. Тедрак прямо заявляет: полноценная оценка в реальном мире слишком дорога и сложна, поэтому симуляция стала основным инструментом тестирования.

Философия тестирования: Симулятор должен быть «пуленепробиваемым». Команда тратит время художников и физиков, чтобы сделать среду максимально близкой к реальности, и проводит автоматические тесты каждого контрольного чекпоинта модели.
Разрыв «симуляция–реальность»: Хотя симуляции пока не идеальны, они позволяют проводить тысячи запусков, получая статистику, которую невозможно собрать в физической лаборатории. Тедрак подчеркивает, что это «достаточное, но не необходимое» условие для успеха: если модель стабильна в симуляции, она с высокой вероятностью будет устойчива и в реальности.

🔭 Взгляд в будущее 50:56

В завершение дискуссии Тедрак отметил, что текущий этап робототехники напоминает «стадию электродов в лягушках» в истории физики: мы делаем интересные вещи, но еще не имеем фундаментальных уравнений, подобных уравнениям Максвелла, которые бы полностью объясняли поведение наших систем.

Следующие шаги: В фокусе — сотрудничество с Boston Dynamics и работа с новой платформой Atlas, а также попытка понять, как эффективно использовать огромные массивы видео с YouTube (данные о том, как мир работает в принципе) для обучения роботов, которые этот мир «ощущают» своими датчиками.
Оптимизм: По мнению исследователя, мы не «решили» манипуляцию, но мы находимся на правильном пути. Роботы, способные помогать по дому, могут появиться уже в обозримом будущем — скорее всего, сначала для простых и безопасных задач, где не требуется 100% успех в каждом движении.