# Meta о будущем робототехники: от визуального кортекса к телеуправлению

Источник: https://www.youtube.com/watch?v=SqKBFo4_-0k
Канал: Stanford Online
Опубликовано: 18.03.2025

---

## 🤖 Путь к универсальным роботам: стратегия адаптации и обучения Meta

[[JUMP:00:10]]

Создание роботов, способных эффективно обучаться и адаптироваться к бесконечному разнообразию домашних условий, — одна из самых сложных задач в современной робототехнике. В рамках семинара Stanford Online спикер из исследовательской команды Meta FAIR (Fundamental AI Research) представила комплексный подход к решению этой проблемы, опирающийся на три столпа: масштабные наборы данных, совершенствование архитектур и развитие алгоритмов,.

Основная концепция заключается в том, что подготовить робота к любой возможной жизненной ситуации невозможно. Вместо этого необходимо наделить его обширными базовыми знаниями до развертывания, а затем обеспечить механизмы для непрерывной автономной адаптации.

### 📊 Роль данных и визуальный кортекс робота

[[JUMP:05:52]]

Центральным проектом в этой области стало создание модели «искусственного визуального кортекса» (VC-1). Команда Meta сосредоточилась на использовании пассивных видеоданных для предварительного обучения визуальных представлений.

*   **Benchmark:** Для оценки эффективности был создан «Cortex Bench», включающий 17 задач в 7 различных категориях, охватывающих разные типы наблюдений и действий.
*   **Методология:** В качестве основы использовался датасет Ego4D, к которому добавлялись видеоданные манипуляций (EPIC-KITCHENS, 100 Days of Hands) и навигационные данные (RealEstate10K, OpenHouse).
*   **Результаты:** Модели с архитектурой ViT-Large продемонстрировали лучшие показатели, чем их меньшие аналоги. Важным открытием стало то, что добавление общего визуального датасета ImageNet повысило производительность, а учет разнообразия доменов (сочетание манипуляционных и навигационных данных) оказался важнее, чем просто увеличение количества манипуляционных наборов.

По мнению спикера, VC-1 показал впечатляющие результаты в zero-shot переносе визуальных признаков для робототехники, практически сравнявшись или превзогнав лучшие существующие решения,.

### 🏠 Симуляция и реальность: перенос навыков

[[JUMP:23:00]]

Большая часть работы FAIR сосредоточена на тренировке в визуально реалистичных симуляторах, таких как Habitat 2.0 и Habitat 3.0, с последующим переносом навыков на «железо»,.

*   **Мобильная манипуляция:** Коллаборатор исследователя, Акшара, продемонстрировала решение задачи, где робот должен найти объект в случайном месте, подобрать его и перенести в целевую точку.
*   **Инструменты:** Использовались датасеты HM3D (навигация) и ReplicaCAD (манипуляции), а в качестве полигона для реальных тестов — «квартира Фримонт» в офисе Meta,.
*   **Новые горизонты:** Были представлены benchmarks OpenEQA (для ответов на вопросы о среде) и PARTNR (для изучения многоагентного планирования, например, взаимодействия робота с человеком),.

### 🧤 Декстерная манипуляция и тактильные сенсоры

[[JUMP:31:40]]

Для задач, требующих высокой точности (декстерная манипуляция), команда делает ставку на тактильную обратную связь.

*   **Digit 360:** Разработка нового тактильного сенсора, который интегрируется в манипуляторы, например, Allegro Hand,.
*   **DexGen:** Проект по телеуправлению, использующий специальные перчатки. Исследователи стремятся обучать контроллеры в симуляции, которые затем проецируют человеческие команды в безопасное пространство движений робота,.

Спикер подчеркнула, что самой большой проблемой текущих «мировых моделей» (world models) остается корректное предсказание взаимодействия с объектами. На данный момент исследователи видят путь к решению в объединении визуальных данных, тактильной сенсорики и продолжающемся накоплении разнообразных данных для обучения.