# Расс Тедрак: «Мы находимся на этапе электродов в лягушках»

Источник: https://www.youtube.com/watch?v=TN1M6vg4CsQ
Канал: Stanford Online
Опубликовано: 05.06.2025

---

## Будущее робототехники: как масштабирование моделей поведения меняет манипуляции

[[JUMP:00:09]]

Современная робототехника переживает переломный момент: переход от узкоспециализированных систем к «большим моделям поведения» (Large Behavior Models, LBM), способным обучаться на широком спектре задач. Расс Тедрак (Russ Tedrake), профессор Массачусетского технологического института (MIT) и ключевая фигура в исследованиях TRI (Toyota Research Institute), в рамках Стэнфордского семинара подробно разобрал, как многозадачное обучение меняет способность роботов взаимодействовать с физическим миром. Главная идея заключается в том, что использование больших объемов разнообразных данных для предварительного обучения позволяет роботам достигать высокой ловкости даже при малом количестве примеров для конкретной задачи.

### 🤖 Что такое большие модели поведения (LBM)
[[JUMP:11:11]]

Традиционный подход в обучении роботов — это «имитационное обучение для конкретной задачи» (single-task imitation learning), где для каждого нового действия (например, складывания футболки) требуется проводить сотни демонстраций. Тедрак предлагает иную концепцию: создание единой модели, «насмотренной» на сотнях различных сценариев, собранных из реального мира и симуляций.

*   **Архитектурный подход:** Команда TRI использует модифицированную архитектуру диффузионных политик (diffusion policy), где вместо стандартного U-Net применяется более масштабируемый DiT (Diffusion Transformer).
*   **Языковая обусловленность:** Модели получают текстовые инструкции, что позволяет связывать физические действия с естественным языком, хотя, по признанию Тедрака, такие модели пока не всегда идеально следуют сложным языковым командам.
*   **Смена парадигмы:** В отличие от старых методов управления, LBM пытаются воспроизвести некий аналог «здравого смысла» для физических манипуляций, что обеспечивает роботам неожиданную устойчивость (robustness).

### 🧪 Эксперименты: почему предобучение работает
[[JUMP:07:10]]

Чтобы доказать эффективность своего метода, исследователи TRI сравнили «чистые» однозадачные модели с предобученными LBM, дообученными (fine-tuned) на той же самой выборке. Результаты, по словам Тедрака, весьма показательны:

1.  **Ловкость и восстановление:** Роботы, обученные с использованием LBM, показывают более плавные траектории и — что особенно важно — способность «восстанавливаться» после мелких ошибок. Примером служит нарезка яблок, где модель успешно справляется с неожиданными отклонениями, которые привели бы к сбою в однозадачной системе.
2.  **Экономия данных:** Предобученная модель достигает высоких результатов, используя лишь 15% данных, которые потребовались бы для обучения с нуля. Это критически важно для малого бизнеса, у которого нет бюджета на десятки тысяч демонстраций.
3.  **Статистическая честность:** Тедрак делает особый акцент на строгом научном подходе. Он настаивает на проведении «слепых» рандомизированных тестов и использовании 95% доверительных интервалов, чтобы исключить *p-hacking* и другие ошибки интерпретации, характерные для сферы AI.

### 🛠 Роль симуляций: «неизбежная реальность»
[[JUMP:17:21]]

Один из самых болезненных вопросов для робототехников — доверие к симуляторам. Тедрак прямо заявляет: полноценная оценка в реальном мире слишком дорога и сложна, поэтому симуляция стала основным инструментом тестирования.

*   **Философия тестирования:** Симулятор должен быть «пуленепробиваемым». Команда тратит время художников и физиков, чтобы сделать среду максимально близкой к реальности, и проводит автоматические тесты каждого контрольного чекпоинта модели.
*   **Разрыв «симуляция–реальность»:** Хотя симуляции пока не идеальны, они позволяют проводить тысячи запусков, получая статистику, которую невозможно собрать в физической лаборатории. Тедрак подчеркивает, что это «достаточное, но не необходимое» условие для успеха: если модель стабильна в симуляции, она с высокой вероятностью будет устойчива и в реальности.

### 🔭 Взгляд в будущее
[[JUMP:50:56]]

В завершение дискуссии Тедрак отметил, что текущий этап робототехники напоминает «стадию электродов в лягушках» в истории физики: мы делаем интересные вещи, но еще не имеем фундаментальных уравнений, подобных уравнениям Максвелла, которые бы полностью объясняли поведение наших систем.

*   **Следующие шаги:** В фокусе — сотрудничество с Boston Dynamics и работа с новой платформой Atlas, а также попытка понять, как эффективно использовать огромные массивы видео с YouTube (данные о том, как мир работает в принципе) для обучения роботов, которые этот мир «ощущают» своими датчиками.
*   **Оптимизм:** По мнению исследователя, мы не «решили» манипуляцию, но мы находимся на правильном пути. Роботы, способные помогать по дому, могут появиться уже в обозримом будущем — скорее всего, сначала для простых и безопасных задач, где не требуется 100% успех в каждом движении.