Meta о будущем робототехники: от визуального кортекса к телеуправлению

🤖 Путь к универсальным роботам: стратегия адаптации и обучения Meta 0:10

Создание роботов, способных эффективно обучаться и адаптироваться к бесконечному разнообразию домашних условий, — одна из самых сложных задач в современной робототехнике. В рамках семинара Stanford Online спикер из исследовательской команды Meta FAIR (Fundamental AI Research) представила комплексный подход к решению этой проблемы, опирающийся на три столпа: масштабные наборы данных, совершенствование архитектур и развитие алгоритмов,.

Основная концепция заключается в том, что подготовить робота к любой возможной жизненной ситуации невозможно. Вместо этого необходимо наделить его обширными базовыми знаниями до развертывания, а затем обеспечить механизмы для непрерывной автономной адаптации.

📊 Роль данных и визуальный кортекс робота 5:52

Центральным проектом в этой области стало создание модели «искусственного визуального кортекса» (VC-1). Команда Meta сосредоточилась на использовании пассивных видеоданных для предварительного обучения визуальных представлений.

Benchmark: Для оценки эффективности был создан «Cortex Bench», включающий 17 задач в 7 различных категориях, охватывающих разные типы наблюдений и действий.
Методология: В качестве основы использовался датасет Ego4D, к которому добавлялись видеоданные манипуляций (EPIC-KITCHENS, 100 Days of Hands) и навигационные данные (RealEstate10K, OpenHouse).
Результаты: Модели с архитектурой ViT-Large продемонстрировали лучшие показатели, чем их меньшие аналоги. Важным открытием стало то, что добавление общего визуального датасета ImageNet повысило производительность, а учет разнообразия доменов (сочетание манипуляционных и навигационных данных) оказался важнее, чем просто увеличение количества манипуляционных наборов.

По мнению спикера, VC-1 показал впечатляющие результаты в zero-shot переносе визуальных признаков для робототехники, практически сравнявшись или превзогнав лучшие существующие решения,.

🏠 Симуляция и реальность: перенос навыков 23:00

Большая часть работы FAIR сосредоточена на тренировке в визуально реалистичных симуляторах, таких как Habitat 2.0 и Habitat 3.0, с последующим переносом навыков на «железо»,.

Мобильная манипуляция: Коллаборатор исследователя, Акшара, продемонстрировала решение задачи, где робот должен найти объект в случайном месте, подобрать его и перенести в целевую точку.
Инструменты: Использовались датасеты HM3D (навигация) и ReplicaCAD (манипуляции), а в качестве полигона для реальных тестов — «квартира Фримонт» в офисе Meta,.
Новые горизонты: Были представлены benchmarks OpenEQA (для ответов на вопросы о среде) и PARTNR (для изучения многоагентного планирования, например, взаимодействия робота с человеком),.

🧤 Декстерная манипуляция и тактильные сенсоры 31:40

Для задач, требующих высокой точности (декстерная манипуляция), команда делает ставку на тактильную обратную связь.

Digit 360: Разработка нового тактильного сенсора, который интегрируется в манипуляторы, например, Allegro Hand,.
DexGen: Проект по телеуправлению, использующий специальные перчатки. Исследователи стремятся обучать контроллеры в симуляции, которые затем проецируют человеческие команды в безопасное пространство движений робота,.

Спикер подчеркнула, что самой большой проблемой текущих «мировых моделей» (world models) остается корректное предсказание взаимодействия с объектами. На данный момент исследователи видят путь к решению в объединении визуальных данных, тактильной сенсорики и продолжающемся накоплении разнообразных данных для обучения.