Как TorqueAGI внедряет законы физики в нейросети для роботов

Stanford Online 3,3 тыс. 1 ч 4 мин 6 мин 01.12.2025
Главное

На семинаре по робототехнике в Стэнфордском университете сооснователь компании TorqueAGI Ашутош Саксена представил инновационный графовый подход к созданию физического искусственного интеллекта (Physical AI). Спикер подробно описал, почему современные ИИ-модели, обучаемые исключительно на терабайтах данных, заходят в тупик при управлении роботами в реальном мире. Ключевым решением этой проблемы, по мнению исследователя, является глубокая интеграция законов классической физики и кинематики непосредственно в архитектуру нейросетей.

🛑 Лимиты «data-driven» подхода и кризис данных в физическом ИИ 0:52

Развитие цифрового искусственного интеллекта сегодня опирается на колоссальный фундамент: как минимум 40 лет накопления цифровых данных и эквивалент 10 миллиардов лет человеческих знаний. Однако перенос этих технологий в физический мир сталкивается с фундаментальным препятствием — жестким дефицитом качественных данных для робототехники.

Ашутош Саксена приводит в пример индустрию беспилотных автомобилей: компании Waymo потребовалось от 20 до 50 миллиардов долларов, причем львиная доля этих средств ушла именно на сбор данных в течение десяти лет. В то же время Tesla собирает массив данных со своего парка машин уже более семи лет. Тем не менее, Саксена утверждает, что подход, основанный исключительно на данных (data-driven AI), не является долгосрочным решением для физического ИИ.

Проблема заключается в бесконечном количестве пограничных ситуаций (edge cases). Сбор миллионов примеров для обучения роботов, работающих под водой, в космосе, в шахтах или в быту, экономически и физически невозможен. Когда беспилотник Tesla попадает в аварию из-за редкого стечения обстоятельств, это лишь подчеркивает уязвимость систем, не понимающих физическую суть происходящего. По словам спикера, индустрии необходимо фундаментально иное решение.

📜 От карт Маркова до VLA-моделей: история преодоления «нерешаемых» задач 5:49

Путь к современному физическому ИИ начался в Стэнфорде. В 2004 году, во время совместной работы Ашутоша Саксены с профессором Эндрю Ыном (Andrew Ng), задача определения глубины по одному статичному изображению считалась математически некорректной и полностью неразрешимой.

Для решения этой проблемы исследователи применили неглубокие графовые модели:

Модель успешно обучалась на нескольких тысячах примеров, самостоятельно понимая, что синий цвет наверху означает небо, а зеленый внизу — траву, без явного программирования жестких правил. Эти наработки легли в основу алгоритмов для первых автономных дронов и систем университетской навигации.

Эволюция алгоритмов за последние два десятилетия включает важные вехи:

  1. Появление CNN (2009–2010 годы): Внедрение 16-слойных сверточных нейросетей автоматизировало распознавание текста (OCR) на почте и демократизировало мобильные приложения с камерами.
  2. Медицинские радары: В своей предыдущей компании Саксена использовал глубокие сети для анализа сигналов радара, что позволило бесконтактно считывать частоту дыхания и пульса человека. Технология получила медицинскую сертификацию FDA Class 2.
  3. Обучение по видео на YouTube: Исследователи из Корнеллского университета обучили робота базовым кулинарным навыкам, заставив его проанализировать миллионы кулинарных рецептов. Это позволило создать единое пространство эмбеддингов для языка, зрения и действий — ранние VLA-модели.

По словам Саксены, главное преимущество современных VLA-моделей заключается в кросс-модальном переносе знаний: концепт, усвоенный в одной модальности, автоматически работает в другой. В качестве аналогии спикер приводит пример больших языковых моделей (LLM): если ИИ понял структуру прилагательных в английском языке, ему не нужно заново объяснять этот принцип для французского. По этой же причине современные алгоритмы способны успешно декодировать древние шумерские тексты.

🧠 Графовый подход: синергия жесткой физики и нейросетей 18:48

Попытки запустить роботов исключительно на эмбеддингах без понимания законов природы приводят к тому, что в условиях, минимально отличающихся от демонстрационных, робот полностью теряет работоспособность. Исторически существовал конфликт между жестким математическим моделированием (например, Model Predictive Control — MPC) и гибким обучением на данных. Первая концепция опирается на строгие уравнения, вторая — полностью их игрирует в надежде на силу оптимизации нейросети.

Графовый подход TorqueAGI объединяет оба метода через кинематический граф. В качестве базовой иллюстрации Саксена приводит модель человеческого тела:

В рамках исследования, опубликованного в 2017 году, авторы использовали ранние версии больших моделей (включая LSTMs), распределяя функции управления элементами тела (позвоночник, руки, ноги) по разным частям архитектуры. Это позволило успешно осуществлять трансфер навыков между агентами с различной кинематикой — например, переносить паттерны движения от медленно шагающего объекта к быстрому.

⚙️ Архитектура TorqueAGI: микросекундная симуляция на уровне GPU 22:57

Современная платформа TorqueAGI состоит из трех базовых компонентов:

  1. Входные энкодеры (левая сторона): Обрабатывают потоки видеокамер, тактильные (хаптические) данные и 3D-облака точек.
  2. Большая модель (центр): Минимизирует функцию потерь и обеспечивает кросс-платформенное воплощение (cross-embodiment) ИИ.
  3. Агенты-интерфейсы (правая сторона): Тонкие программные прослойки для оркестрации задач.

Главным нововведением TorqueAGI является глубокая интеграция физических симуляторов непосредственно в слои трансформера на аппаратном уровне GPU. Встроенный симулятор обратной кинематики (Inverse Kinematics) работает на микросекундном уровне. Это ускоряет цикл рассуждений модели внутри самого стека нейросети.

Неформализуемые аспекты среды — такие как мягкий контакт объектов, гравитация и особенности укладки предметов в стопки — кодируются с помощью небольших нейросетевых операторов физики (Physics Neural Operators). Они позволяют ИИ гибко отклоняться от строгих уравнений при наличии достаточного объема эмпирических данных.

Для преодоления задержек инференса TorqueAGI в партнерстве с NVIDIA реализовала архитектуру, где все параметры модели и данные находятся исключительно в памяти GPU. Тонкие интерфейсы агентов работают на CPU. Саксена подчеркивает, что для роботов критически важно время получения первого токена (time to first token): модель на борту робота обязана возвращать команду в пределах 100 миллисекунд, иначе устройство просто застрянет на месте.

🏗️ Промышленное внедрение: от сборки коробок до тяжелой техники 25:58

Графовая архитектура позволяет радикально сократить объем данных для обучения. Роботу, складывающему картонные коробки на производстве, потребовалось всего 10 демонстрационных примеров вместо стандартных 10 000. Это стало возможным благодаря тому, что ИИ изначально знает собственную кинематику и обладает пониманием сочлененных (articulated) физических объектов.

Для сравнения спикер вспомнил эксперимент 2015 года по приготовлению кофе «аффогато»: тогда вычисления были настолько медленными, что видео пришлось ускорить в 25 раз, из-за чего мороженое успело растаять до окончания процесса. Сегодня новые инструменты позволяют выполнять подобные задачи в реальном времени.

Саксена отмечает, что TorqueAGI не тратит деньги на ручной сбор датасетов. Вместо этого компания развертывает решения на коммерческих роботах клиентов, запуская «маховик бесплатных данных» по аналогии со стратегией Tesla. Процесс интеграции сводится к загрузке файла кинематической структуры робота и конфигурации сенсоров, что занимает несколько минут. В результате инженеры пишут лишь 20% традиционного кода, а 80% работы составляет настройка агентов и совершенствование базовой модели.

Технологии TorqueAGI уже находят применение в ряде масштабных индустрий:

Саксена прогнозирует скорую стратификацию рынка робототехники. Если раньше компаниям приходилось создавать весь стек с нуля — от железа до логов, то теперь индустрия переходит к платформенной модели (подобно ROS/ROS2). Появятся отдельные провайдеры систем тестирования, анализа логов и специализированных моделей.

По мнению спикера, инвестиции сотен миллиардов долларов в слепой сбор данных без учета физики способны породить лишь красивые демонстрационные ролики и поднять цены на недвижимость в Кремниевой долине, но не решат проблему физического ИИ. Будущее за моделями, где физика является фундаментальным скелетом, а роботы взаимодействуют через протоколы оркестрации агентов (такие как Model Context Protocol — MCP).

💬 Цитаты

«Слепой сбор данных не решит проблему физического ИИ. Физика должна стать его реальным скелетом.»

Ашутош Саксена 43:39

«Модели на борту робота обязаны возвращать команду в пределах 100 миллисекунд, иначе устройство просто застрянет.»

Ашутош Саксена 25:45
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Physical AI (Физический ИИ)
Искусственный интеллект, разработанный для взаимодействия с реальным миром через физические тела роботов.
VLA (Vision-Language-Action)
Мультимодальные модели, объединяющие распознавание изображений, понимание текста и генерацию команд для роботов.
Кинематический граф
Математическое описание структуры робота, фиксирующее связи и ограничения подвижности его элементов.
Model Context Protocol (MCP)
Протокол взаимодействия, позволяющий различным ИИ-агентам эффективно обмениваться контекстом и данными.
📊 Цифры
🗓 Хронология
  1. 2004 Ашутош Саксена под руководством Эндрю Ына решает задачу определения глубины по одному кадру с помощью графовых моделей.
  2. 2009-2010 Появление глубоких сверточных сетей (CNN) и их массовое внедрение в системы распознавания изображений и робототехнику.
  3. 2015 Эксперименты по обучению роботов кулинарии по видеороликам с YouTube в Корнеллском университете.
  4. 2017 Публикация научной работы, описывающей изоморфное проецирование кинематических графов на архитектуру нейросетей.
  5. 2025 Презентация TorqueAGI на семинаре в Стэнфорде, демонстрирующая промышленное применение графового физического ИИ.
⚖️ Другая сторона
Искусственный интеллект TorqueAGI Physical AI Ашутош Саксена модели VLA кинематический граф