Киртхана Гопалакришнан и Тед Сяо о прорывах в робототехнике

Будущее робототехники: от специализированных машин к общим интеллектуальным системам 0:00

Исследователи из Google DeepMind Киртхана Гопалакришнан и Тед Сяо в интервью подкасту The Cognitive Revolution подвели итоги года активных разработок в области робототехники. За последний год команда совершила качественный скачок, объединив архитектуры больших мультимодальных моделей с физическим управлением роботами. По мнению спикеров, индустрия сейчас находится в «точке перегиба», сопоставимой с переходом от GPT-2 к GPT-3 в области языковых моделей. Если раньше компоненты роботизированных систем работали успешно лишь в 20–30% случаев, то интеграция фундаментальных моделей позволила поднять этот показатель до 60–70%, что радикально ускорило темпы исследований.

🧠 RT-2 и слияние интернет-знаний с робототехникой 9:46

RT-2 — это развитие системы RT-1, которая демонстрировала отличную производительность в узкоспециализированных задачах внутри конкретных доменов. Ключевым нововведением RT-2 стала способность к генерализации на основе знаний, накопленных в интернете.

Ко-файнтюнинг (Co-fine-tuning): Вместо классического разделения на систему восприятия и систему управления, модель обучается «сквозным» способом. В обучающую выборку смешиваются задачи типа «вопрос-ответ» по изображениям из интернета и конкретные данные о движениях робота.
Результат: Это позволяет роботу понимать концепции объектов, которые он никогда не видел в тренировочном наборе. Например, модель может выполнить команду «подними самый острый предмет», опираясь на общие знания о свойствах предметов, полученные из интернета, а не только из специфических данных робототехники.
Ограничения: Несмотря на интеллектуальную гибкость, моторные навыки остаются привязанными к тренировочным данным. Физика движений — это то, чего практически нет в текстовых и визуальных данных интернета.

🤖 RTX: модель для всех типов роботов 24:10

Проект RTX (Robotics Transformer Cross-embodiment) стал результатом масштабной коллаборации с академическими лабораториями США.

Суть: Исследователи собрали данные более чем 30 различных типов роботов — от простых манипуляторов с двумя пальцами до мобильных систем и декстерных роботов для прокладки кабеля.
Итог: Модель, обученная на совокупности данных всех этих роботов, в большинстве случаев показала лучшие результаты, чем специализированные модели, обученные под конкретную «морфологию».
Отсутствие «флага» робота: Важным открытием стало то, что модель не нуждается в явном указании того, каким роботом она управляет. Она выполняет имплицитную идентификацию системы по визуальному потоку (например, анализируя угол обзора камеры).

📐 RT-Trajectory: управление через наброски 41:11

RT-Trajectory внедряет возможность «промптинга» робота с помощью простых визуальных инструкций.

Механика: Человек рисует линию на изображении, указывая траекторию движения робота.
Синтез данных: Команда использовала существующие записи успешных действий робота и «накладывала» на них соответствующие траектории, обучая модель связывать линию-инструкцию с физическим действием.
Цветовой градиент: Линии содержат цветовую маркировку, помогающую модели понимать трехмерное положение объекта даже на плоском 2D-изображении. Это дает оператору возможность вносить микрокоррекции в работу робота, не переобучая всю систему.

🛡️ Auto RT и Конституция робота 50:23

С ростом количества роботов, работающих автономно в реальной среде, встает вопрос безопасности и эффективного контроля.

Конституция робота: В систему внедрен набор правил, вдохновленных законами робототехники Айзека Азимова. Это «фундаментальные законы», которые определяют границы допустимого поведения (например, избегание контакта с опасными предметами или людьми).
Ограничения: Киртхана Гопалакришнан и Тед Сяо признают, что промптинг — это не гарантия полной безопасности. В текущих экспериментах роботы работают под присмотром людей, а на программном уровне установлены традиционные «жесткие» ограничения на скорость, силу и траектории.

🚀 Будущее «оживления» AI 1:03:04

Среди будущих задач исследователи выделяют:

Повышение выборки (Sample Efficiency): Как сделать так, чтобы роботы учились быстрее, используя меньше человеческих демонстраций?
Декстерная робототехника: Развитие способностей для выполнения сложных манипуляций, таких как складывание одежды или открывание дверей, где важна высокая точность.
Понимание физики: Гопалакришнан и Сяо задаются вопросом, является ли понимание причинно-следственных связей и физики мира чем-то, что можно «вытащить» из текущих LLM, или это требует совершенно иных подходов к данным.

По мнению спикеров, индустрия находится на пороге эры «воплощенного AI» (embodied AI). Они подчеркивают, что, несмотря на успехи, до коммерчески доступных универсальных домашних роботов еще требуется совершить несколько фундаментальных прорывов.