Как TorqueAGI внедряет законы физики в нейросети для роботов

На семинаре по робототехнике в Стэнфордском университете сооснователь компании TorqueAGI Ашутош Саксена представил инновационный графовый подход к созданию физического искусственного интеллекта (Physical AI). Спикер подробно описал, почему современные ИИ-модели, обучаемые исключительно на терабайтах данных, заходят в тупик при управлении роботами в реальном мире. Ключевым решением этой проблемы, по мнению исследователя, является глубокая интеграция законов классической физики и кинематики непосредственно в архитектуру нейросетей.

🛑 Лимиты «data-driven» подхода и кризис данных в физическом ИИ 0:52

Развитие цифрового искусственного интеллекта сегодня опирается на колоссальный фундамент: как минимум 40 лет накопления цифровых данных и эквивалент 10 миллиардов лет человеческих знаний. Однако перенос этих технологий в физический мир сталкивается с фундаментальным препятствием — жестким дефицитом качественных данных для робототехники.

Ашутош Саксена приводит в пример индустрию беспилотных автомобилей: компании Waymo потребовалось от 20 до 50 миллиардов долларов, причем львиная доля этих средств ушла именно на сбор данных в течение десяти лет. В то же время Tesla собирает массив данных со своего парка машин уже более семи лет. Тем не менее, Саксена утверждает, что подход, основанный исключительно на данных (data-driven AI), не является долгосрочным решением для физического ИИ.

Проблема заключается в бесконечном количестве пограничных ситуаций (edge cases). Сбор миллионов примеров для обучения роботов, работающих под водой, в космосе, в шахтах или в быту, экономически и физически невозможен. Когда беспилотник Tesla попадает в аварию из-за редкого стечения обстоятельств, это лишь подчеркивает уязвимость систем, не понимающих физическую суть происходящего. По словам спикера, индустрии необходимо фундаментально иное решение.

📜 От карт Маркова до VLA-моделей: история преодоления «нерешаемых» задач 5:49

Путь к современному физическому ИИ начался в Стэнфорде. В 2004 году, во время совместной работы Ашутоша Саксены с профессором Эндрю Ыном (Andrew Ng), задача определения глубины по одному статичному изображению считалась математически некорректной и полностью неразрешимой.

Для решения этой проблемы исследователи применили неглубокие графовые модели:

Марковские случайные поля (Markov Random Fields).
Условные случайные поля (Conditional Random Fields).

Модель успешно обучалась на нескольких тысячах примеров, самостоятельно понимая, что синий цвет наверху означает небо, а зеленый внизу — траву, без явного программирования жестких правил. Эти наработки легли в основу алгоритмов для первых автономных дронов и систем университетской навигации.

Эволюция алгоритмов за последние два десятилетия включает важные вехи:

Появление CNN (2009–2010 годы): Внедрение 16-слойных сверточных нейросетей автоматизировало распознавание текста (OCR) на почте и демократизировало мобильные приложения с камерами.
Медицинские радары: В своей предыдущей компании Саксена использовал глубокие сети для анализа сигналов радара, что позволило бесконтактно считывать частоту дыхания и пульса человека. Технология получила медицинскую сертификацию FDA Class 2.
Обучение по видео на YouTube: Исследователи из Корнеллского университета обучили робота базовым кулинарным навыкам, заставив его проанализировать миллионы кулинарных рецептов. Это позволило создать единое пространство эмбеддингов для языка, зрения и действий — ранние VLA-модели.

По словам Саксены, главное преимущество современных VLA-моделей заключается в кросс-модальном переносе знаний: концепт, усвоенный в одной модальности, автоматически работает в другой. В качестве аналогии спикер приводит пример больших языковых моделей (LLM): если ИИ понял структуру прилагательных в английском языке, ему не нужно заново объяснять этот принцип для французского. По этой же причине современные алгоритмы способны успешно декодировать древние шумерские тексты.

🧠 Графовый подход: синергия жесткой физики и нейросетей 18:48

Попытки запустить роботов исключительно на эмбеддингах без понимания законов природы приводят к тому, что в условиях, минимально отличающихся от демонстрационных, робот полностью теряет работоспособность. Исторически существовал конфликт между жестким математическим моделированием (например, Model Predictive Control — MPC) и гибким обучением на данных. Первая концепция опирается на строгие уравнения, вторая — полностью их игрирует в надежде на силу оптимизации нейросети.

Графовый подход TorqueAGI объединяет оба метода через кинематический граф. В качестве базовой иллюстрации Саксена приводит модель человеческого тела:

Голова, руки и ноги связаны в единую кинематическую структуру с понятными взаимосвязями.
Движения головы кинематически слабо зависят от процесса ходьбы — наклон головы не заставляет человека падать.
Граф преобразуется в изоморфную структуру, где узлы и ребра отображаются на отдельные слои нейросети.

В рамках исследования, опубликованного в 2017 году, авторы использовали ранние версии больших моделей (включая LSTMs), распределяя функции управления элементами тела (позвоночник, руки, ноги) по разным частям архитектуры. Это позволило успешно осуществлять трансфер навыков между агентами с различной кинематикой — например, переносить паттерны движения от медленно шагающего объекта к быстрому.

⚙️ Архитектура TorqueAGI: микросекундная симуляция на уровне GPU 22:57

Современная платформа TorqueAGI состоит из трех базовых компонентов:

Входные энкодеры (левая сторона): Обрабатывают потоки видеокамер, тактильные (хаптические) данные и 3D-облака точек.
Большая модель (центр): Минимизирует функцию потерь и обеспечивает кросс-платформенное воплощение (cross-embodiment) ИИ.
Агенты-интерфейсы (правая сторона): Тонкие программные прослойки для оркестрации задач.

Главным нововведением TorqueAGI является глубокая интеграция физических симуляторов непосредственно в слои трансформера на аппаратном уровне GPU. Встроенный симулятор обратной кинематики (Inverse Kinematics) работает на микросекундном уровне. Это ускоряет цикл рассуждений модели внутри самого стека нейросети.

Неформализуемые аспекты среды — такие как мягкий контакт объектов, гравитация и особенности укладки предметов в стопки — кодируются с помощью небольших нейросетевых операторов физики (Physics Neural Operators). Они позволяют ИИ гибко отклоняться от строгих уравнений при наличии достаточного объема эмпирических данных.

Для преодоления задержек инференса TorqueAGI в партнерстве с NVIDIA реализовала архитектуру, где все параметры модели и данные находятся исключительно в памяти GPU. Тонкие интерфейсы агентов работают на CPU. Саксена подчеркивает, что для роботов критически важно время получения первого токена (time to first token): модель на борту робота обязана возвращать команду в пределах 100 миллисекунд, иначе устройство просто застрянет на месте.

🏗️ Промышленное внедрение: от сборки коробок до тяжелой техники 25:58

Графовая архитектура позволяет радикально сократить объем данных для обучения. Роботу, складывающему картонные коробки на производстве, потребовалось всего 10 демонстрационных примеров вместо стандартных 10 000. Это стало возможным благодаря тому, что ИИ изначально знает собственную кинематику и обладает пониманием сочлененных (articulated) физических объектов.

Для сравнения спикер вспомнил эксперимент 2015 года по приготовлению кофе «аффогато»: тогда вычисления были настолько медленными, что видео пришлось ускорить в 25 раз, из-за чего мороженое успело растаять до окончания процесса. Сегодня новые инструменты позволяют выполнять подобные задачи в реальном времени.

Саксена отмечает, что TorqueAGI не тратит деньги на ручной сбор датасетов. Вместо этого компания развертывает решения на коммерческих роботах клиентов, запуская «маховик бесплатных данных» по аналогии со стратегией Tesla. Процесс интеграции сводится к загрузке файла кинематической структуры робота и конфигурации сенсоров, что занимает несколько минут. В результате инженеры пишут лишь 20% традиционного кода, а 80% работы составляет настройка агентов и совершенствование базовой модели.

Технологии TorqueAGI уже находят применение в ряде масштабных индустрий:

Складская логистика: Упаковка помятых, деформированных коробок и распределение посылок в сложных условиях.
Роботы-гуманоиды: Партнерство по управлению «супергуманоидами» (Super Humanoid), способными поднимать тяжелую мебель и грузы.
Строительство: Совместный проект с Canvas Construction по автоматизации отделки стен. Робот самостоятельно наносит строительную смесь, зачищает поверхности и красит трехэтажные стены с высочайшей угловой точностью.
Аэродромные службы: Автоматизация погрузки багажа и очистки зон вылета от опасного мелкого мусора, который при попадании в турбину летит как пуля. Спикер отмечает, что FAA лояльно относится к автоматизации зон у выходов на посадку (gate areas), так как они находятся в ведении авиакомпаний.
Сельское хозяйство: Внедрение ИИ в тяжелую технику (тракторы) совместно с Coast Autonomous в условиях снега, дождя и пыли. Роботизация обеспечивает точечный полив и направленное распределение инсектицидов на миндальных фермах, оптимизируя ресурсы.

Саксена прогнозирует скорую стратификацию рынка робототехники. Если раньше компаниям приходилось создавать весь стек с нуля — от железа до логов, то теперь индустрия переходит к платформенной модели (подобно ROS/ROS2). Появятся отдельные провайдеры систем тестирования, анализа логов и специализированных моделей.

По мнению спикера, инвестиции сотен миллиардов долларов в слепой сбор данных без учета физики способны породить лишь красивые демонстрационные ролики и поднять цены на недвижимость в Кремниевой долине, но не решат проблему физического ИИ. Будущее за моделями, где физика является фундаментальным скелетом, а роботы взаимодействуют через протоколы оркестрации агентов (такие как Model Context Protocol — MCP).