# Киртхана Гопалакришнан и Тед Сяо о прорывах в робототехнике

Источник: https://www.youtube.com/watch?v=oH2vjGsBIQA
Канал: The Cognitive Revolution
Опубликовано: 22.04.2024

---

## Будущее робототехники: от специализированных машин к общим интеллектуальным системам
[[JUMP:0:00]]

Исследователи из Google DeepMind Киртхана Гопалакришнан и Тед Сяо в интервью подкасту *The Cognitive Revolution* подвели итоги года активных разработок в области робототехники. За последний год команда совершила качественный скачок, объединив архитектуры больших мультимодальных моделей с физическим управлением роботами. По мнению спикеров, индустрия сейчас находится в «точке перегиба», сопоставимой с переходом от GPT-2 к GPT-3 в области языковых моделей. Если раньше компоненты роботизированных систем работали успешно лишь в 20–30% случаев, то интеграция фундаментальных моделей позволила поднять этот показатель до 60–70%, что радикально ускорило темпы исследований.

## 🧠 RT-2 и слияние интернет-знаний с робототехникой
[[JUMP:9:46]]

RT-2 — это развитие системы RT-1, которая демонстрировала отличную производительность в узкоспециализированных задачах внутри конкретных доменов. Ключевым нововведением RT-2 стала способность к генерализации на основе знаний, накопленных в интернете.

*   **Ко-файнтюнинг (Co-fine-tuning):** Вместо классического разделения на систему восприятия и систему управления, модель обучается «сквозным» способом. В обучающую выборку смешиваются задачи типа «вопрос-ответ» по изображениям из интернета и конкретные данные о движениях робота.
*   **Результат:** Это позволяет роботу понимать концепции объектов, которые он никогда не видел в тренировочном наборе. Например, модель может выполнить команду «подними самый острый предмет», опираясь на общие знания о свойствах предметов, полученные из интернета, а не только из специфических данных робототехники.
*   **Ограничения:** Несмотря на интеллектуальную гибкость, моторные навыки остаются привязанными к тренировочным данным. Физика движений — это то, чего практически нет в текстовых и визуальных данных интернета.

## 🤖 RTX: модель для всех типов роботов
[[JUMP:24:10]]

Проект RTX (Robotics Transformer Cross-embodiment) стал результатом масштабной коллаборации с академическими лабораториями США.

*   **Суть:** Исследователи собрали данные более чем 30 различных типов роботов — от простых манипуляторов с двумя пальцами до мобильных систем и декстерных роботов для прокладки кабеля.
*   **Итог:** Модель, обученная на совокупности данных всех этих роботов, в большинстве случаев показала лучшие результаты, чем специализированные модели, обученные под конкретную «морфологию».
*   **Отсутствие «флага» робота:** Важным открытием стало то, что модель не нуждается в явном указании того, каким роботом она управляет. Она выполняет имплицитную идентификацию системы по визуальному потоку (например, анализируя угол обзора камеры).

## 📐 RT-Trajectory: управление через наброски
[[JUMP:41:11]]

RT-Trajectory внедряет возможность «промптинга» робота с помощью простых визуальных инструкций.

*   **Механика:** Человек рисует линию на изображении, указывая траекторию движения робота.
*   **Синтез данных:** Команда использовала существующие записи успешных действий робота и «накладывала» на них соответствующие траектории, обучая модель связывать линию-инструкцию с физическим действием.
*   **Цветовой градиент:** Линии содержат цветовую маркировку, помогающую модели понимать трехмерное положение объекта даже на плоском 2D-изображении. Это дает оператору возможность вносить микрокоррекции в работу робота, не переобучая всю систему.

## 🛡️ Auto RT и Конституция робота
[[JUMP:50:23]]

С ростом количества роботов, работающих автономно в реальной среде, встает вопрос безопасности и эффективного контроля.

*   **Конституция робота:** В систему внедрен набор правил, вдохновленных законами робототехники Айзека Азимова. Это «фундаментальные законы», которые определяют границы допустимого поведения (например, избегание контакта с опасными предметами или людьми).
*   **Ограничения:** Киртхана Гопалакришнан и Тед Сяо признают, что промптинг — это не гарантия полной безопасности. В текущих экспериментах роботы работают под присмотром людей, а на программном уровне установлены традиционные «жесткие» ограничения на скорость, силу и траектории.

## 🚀 Будущее «оживления» AI
[[JUMP:1:03:04]]

Среди будущих задач исследователи выделяют:

1.  **Повышение выборки (Sample Efficiency):** Как сделать так, чтобы роботы учились быстрее, используя меньше человеческих демонстраций?
2.  **Декстерная робототехника:** Развитие способностей для выполнения сложных манипуляций, таких как складывание одежды или открывание дверей, где важна высокая точность.
3.  **Понимание физики:** Гопалакришнан и Сяо задаются вопросом, является ли понимание причинно-следственных связей и физики мира чем-то, что можно «вытащить» из текущих LLM, или это требует совершенно иных подходов к данным.

По мнению спикеров, индустрия находится на пороге эры «воплощенного AI» (*embodied AI*). Они подчеркивают, что, несмотря на успехи, до коммерчески доступных универсальных домашних роботов еще требуется совершить несколько фундаментальных прорывов.