Санбэ Ким: «Языковые модели не решат проблемы робототехники»

Спустя годы вынужденного ожидания, вызванного глобальной пандемией, известный робототехник вернулся в Кремниевую долину, чтобы представить в Стэнфордском университете свой знаковый доклад, концепция которого развивалась в течение последнего десятилетия. В центре внимания этого глубокого философского и технологического семинара — фундаментальное различие между виртуальным искусственным интеллектом и интеллектом физическим, а также масштабные когнитивные искажения, заставляющие человечество фатально заблуждаться относительно истинных возможностей современных технологий. Опираясь на свой многолетний опыт проектирования прорывных роботов, спикер объясняет, почему текстовые языковые модели не способны самостоятельно решить задачи робототехники, как устроено наше собственное подсознательное управление телом и почему симуляция никогда не заменит реальный физический опыт.

🤖 От «липких роботов» до фабрик будущего 0:10

Спикер начинает свое выступление на позитивной ноте, делясь радостью от долгожданного возвращения в Область залива Сан-Франциско во время своего творческого отпуска — саббатикала. Этот семинар должен был состояться в Стэнфордском университете еще в 2020 году, но из-за пандемии планы пришлось отложить на несколько лет. Сам заголовок доклада остается неизменным уже около десяти лет, со времен его защиты профессорской позиции (tenure talk), хотя внутреннее наполнение регулярно обновляется с учетом новейших технологических достижений.

За плечами исследователя стоит богатый академический и практический бэкграунд:

Создание знаменитых биоинспирированных роботов Stickybot и MIT Cheetah.
Работа в составе Оборонной научно-исследовательской группе США (DSSG), включавшая визиты на засекреченные военные объекты и решение оборонных вопросов.
Деятельность в качестве члена консультативного совета по искусственному интеллекту автомобильного гиганта Hyundai Motor Group.

В рамках этой работы спикер посетил четыре завода компании, включая ультрасовременную фабрику в Сингапуре, которая обладает самым высоким уровнем автоматизации в мире — 45%. Этот опыт позволил ему изнутри изучить вызовы автоматизации реального производства, а также наблюдать за тем, как Hyundai управляет знаменитой компанией Boston Dynamics и их исследовательским институтом ИИ.

Размышляя о ландшафте современных технологий, спикер проводит жесткую границу между виртуальными информационными сервисами и физическими услугами. По его мнению, ИТ-гиганты Кремниевой долины зарабатывают колоссальные деньги на интернет-сервисах, которые имеют дело исключительно с информацией — битами данных, а не с атомами реального мира. В этих процессах нет обмена физической энергией или силой. Спикер считает такие технологии скорее «приятным бонусом» и элементом комфорта, в то время как физические услуги являются критически важными, эссенциальными для самого выживания человечества. К ним относятся:

Сбор и утилизация бытовых отходов.
Своевременная доставка продуктов питания.
Функционирование транспортных систем.
Ремонт сантехники, отопления и систем охлаждения домов.

Проблема усугубляется нарастающим глобальным дефицитом рабочей силы. Для Южной Кореи, откуда родом спикер, катастрофически низкий уровень рождаемости стал экзистенциальной угрозой. Общество может столкнуться с коллапсом, если автоматизация не компенсирует нехватку человеческих рук, поэтому фокус внимания технологического сектора обязан сместиться в физический мир.

Несмотря на совершенство современных промышленных роботов, которые точны, эффективны и не знают усталости, они, как подчеркивает спикер, принципиально не способны делать то, что делает человек. В них полностью отсутствует интеллект — это просто высокоточные машины для копирования заданных координат. Из-за этого даже такая тривиальная задача, как подключение кабеля в разъем, до сих пор требует участия человека. В среднем автомобильный завод автоматизирован лишь на 20%, а остальные 80% сложных сборочных операций выполняются вручную. Даже в Китае промышленники заявляют об острой нехватке людей для монотонной работы на конвейере.

Кадры из знаменитого технологического соревнования DARPA Robotics Challenge, где антропоморфные роботы неуклюже падают при попытке открыть дверь или выйти из машины, по словам спикера, наглядно демонстрируют неготовность аппаратного обеспечения. Эти роботы выглядят как супергерои, но их суставы были скопированы с фабричных манипуляторов, где во главу угла ставилась жесткость и точность позиционирования. Они абсолютно не приспособлены к тому, чтобы упруго адаптироваться к окружению и регулировать силу взаимодействия так, как это делает человек.

🐆 Проприоцептивные приводы и конец гидравлической эпохи 6:16

Первые десять лет своей карьеры в Массачусетском технологическом институте (MIT) спикер посвятил радикальному изменению парадигмы проектирования аппаратной части. Внутри завода среда полностью контролируема, и высокая точность решает любые проблемы. Однако за его пределами робот не может предсказать геометрию окружения. Ему необходимо самостоятельно поддерживать баланс на ногах или колесах и динамически реагировать на изменения, не имея возможности просто «закрыть глаза и варить шов за швом».

Опираясь на биологические принципы, команда спикера сначала разработала робота iSprawl на основе мягких материалов, а затем приступила к созданию легендарной серии платформ MIT Cheetah. Чтобы построить робота, способного реально помогать людям в чрезвычайных ситуациях, инженерам пришлось с нуля перепроектировать электромоторы, контроллеры и силовые драйверы. В результате экспериментальная платформа без активной системы балансировки неожиданно продемонстрировала энергоэффективность, сопоставимую с уровнем живых животных.

Опубликованные видеоролики испытаний MIT Cheetah шокировали экспертное сообщество. Обывателей поражала высочайшая мощность и скорость бега робота, но специалистов по робототехнике — его приземление после прыжка. В то время в индустрии никто не верил, что электрический мотор способен выдерживать колоссальные ударные нагрузки без разрушения редуктора. В дальнейшем этот подход был масштабирован на антропоморфные системы и роботов-манипуляторов для разрушения стен в режиме телеуправления. Интересным курьезом стало то, что спустя три месяца после публикации чертежей мотора MIT Cheetah китайские компании на платформе AliExpress начали продавать его точные копии по цене 300 долларов, что в точности соответствовало себестоимости компонентов в США.

В основе технологического прорыва лежала концепция проприоцептивного привода (proprioceptive actuation). Источником вдохновения для нее послужл тактильный дисплей Phantom (Phantom haptic display). Спикер поясняет, что их разработка стала фактически «Phantom на стероидах». Сообщество разработчиков систем управления силой долго не могло осознать этот принцип: если минимизировать инерцию ротора, убрать высокоступенчатые редукторы и пожертвовать всего 5-6% точности, теряющимися из-за трения, система превращается в идеальный датчик силы. Роботу больше не требуются хрупкие и дорогие датчики деформации на концах звеньев. Эксперименты с двумя манипуляторами доказали, что оператор может мгновенно чувствовать все силы, воздействующие на робота, сохраняя высочайшую пропускную способность и стабильность системы. Для большинства прикладных задач манипуляции важна не прецизионная точность измерения ньютонов, а реактивность и здравый смысл алгоритма.

По мнению спикера, появление MIT Cheetah кардинально изменило мировой ландшафт робототехники. В период популярности платформ BigDog и LS3 в индустрии доминировали тяжелые, шумные гидравлические системы, и все эксперты утверждали, что электромоторы неприменимы для динамической ходьбы. Однако после публикаций разработок MIT гидравлические проекты по всему миру — в Китае, Корее, Италии — начали стремительно закрываться. Ученик спикера, перешедший на работу в Boston Dynamics, лично возглавел процесс закрытия их знаменитой гидравлической программы. Это привело к настоящему «кембрийскому взрыву» электрических шагающих роботов и гуманоидов, заполонивших рынок в последние годы. Спикер критикует некоторые американские стартапы за возврат к усложненным схемам с датчиками силы, утверждая, что именно проприоцептивный подход остается единственным путем к созданию дешевых, надежных и высокоточных роботов.

🧠 Butler против Monster: Синергия RL и MPC 12:22

В области управления локомоцией роботов спикер выделяет два противоположных, но глубоко комплементарных метода — обучение с подкреплением (Reinforcement Learning, RL) и модельно-прогностическое управление (Model Predictive Control, MPC). Метод RL полностью управляется данными: нейросеть собирает опыт в симуляциях на основе заданной функции вознаграждения. Напротив, классический MPC производит непрерывный математический расчет градиентного спуска каждые 10 миллисекунд, опираясь на физическую модель робота.

Спикер использует яркие метафоры для описания плюсов и минусов этих подходов:

Обучение с подкреплением (RL) — это «мощный дикий зверь» (beast). Он способен демонстрировать невероятные трюки, но абсолютно не слушается команд оператора. Если робот сталкивается с условиями, выходящими за рамки обучающей выборки, система мгновенно ломается. Изменение целевой функции ради исправления одной ошибки ломает все остальные элементы поведения, превращая настройку в кошмар.
Модельно-прогностическое управление (MPC) — это «чопорный дворецкий» (butler). Он безупречен в рамках инструкций, но совершенно беспомощен за пределами дома. Главный недостаток чистого MPC — в полном отсутствии памяти. Робот совершает шаг и заново пересчитывает сложнейшую оптимизацию, которую он уже успешно выполнил полсекунды назад.

Идея лаборатории спикера заключается в том, чтобы «посадить дворецкого верхом на дикого зверя», объединив их сильные стороны. Главное преимущество MPC — легкость композиции поведений: робот может мгновенно переключаться между ходьбой и прыжками без долгого сбора данных, неизбежного для RL.

Чтобы преодолеть медлительность классических QP-солверов (квадратичного программирования), работающих на CPU, команда разработала инструмент CusADi на базе архитектуры параллельных вычислений CUDA. Это позволило перенести математическую оптимизацию полного тела робота на GPU и выполнять 5000 расчетов параллельно в реальном времени. Теперь алгоритмы могут легко смешивать строгость физических моделей MPC со скоростью исследования среды, свойственной ИИ.

👁️ Когнитивные искажения: почему человек переоценивает ИИ 17:00

Ключевой философской темой семинара стали когнитивные искажения человека по отношению к искусственному интеллекту. Спикер выделяет четыре главных принципа, объясняющих, почему мы так легко и фатально заблуждаемся насчет реальных возможностей ИИ.

Первый принцип гласит: мы оцениваем производительность ИИ исключительно по человеческим стандартам. Спикер приводит наглядный пример: когда он демонстрирует видео, где робот Mini Cheetah просто стабильно идет по комнате, аудитория реагирует вяло. Но стоит показать кадр, где робот делает сальто назад (backflip), как зал взрывается от восторга. Ирония заключается в том, что трюк с сальто занял всего три дня работы двух студентов бакалавриата. При этом на программирование надежной ходьбы с помощью MPC, настройку фильтров оценки состояний и детекцию контактов с поверхностью у всей команды ученых ушло два года кропотливого труда.

Человек по своей природе является социальным животным и эволюционировал как «машина для распознавания образов». Мы подсознательно оцениваем поведение роботов или программ на основе того, как мы судим друг о друге. Впервые запустив ChatGPT, пользователь мгновенно испытывает ощущение контакта с разумным существом и на основе красивого текста выносит вердикт об огромном «уме» модели.

Вторым примером служит знаменитый ролик, где инженеры Boston Dynamics пинают робота ногой, чтобы продемонстрировать его устойчивость к внешним возмущениям. Спикер отмечает, что более 60% комментариев под этим видео на YouTube пропитаны искренней эмпатией к «бедному роботу». Пользователи пишут, что этот робот станет первым, кто уничтожит кожаных мешков, когда включится терминаторская система, и обвиняют инженеров в неоправданной жестокости. Наш древний мозг (так называемая «Система 1») мгновенно считывает пинок как проявление агрессии к живому существу. Это встроенное антропоморфное искажение невозможно отключить логикой, сколько бы лет вы ни проработали в робототехнике.

Данный феномен напрямую объясняет парадокс Моравека, сформулированный еще в 1988 году. Ученые заметили, что компьютеры с легкостью справляются со сложнейшими логическими задачами (игра в шашки или шахматы), но пасуют перед базовыми навыками восприятия и мобильности, доступными годовалому ребенку. По мнению спикера, человечество на протяжении веков ошибочно считало признаком высшего интеллекта то, что на самом деле является лишь эволюционно свежей верхушкой айсберга. В Средние века умение читать и писать определяло принадлежность к благородному классу, математика считалась признаком невероятной утонченности, а умение играть в шахматы — признаком гениальности. Сегодня компьютеры полностью завоевали эти области. Однако те навыки, которые мы даже не считаем интеллектом, поскольку они происходят бессознательно, ИИ до сих пор не может освоить даже поверхностно. Человечество практикует абстрактное текстовое мышление от силы 10 000 лет, в то время как физическое взаимодействие с миром оттачивалось эволюцией сотни миллионов лет, поэтому оно дается нам без видимых усилий.

🥕 Иллюзия контроля и скрытая работа мозжечка 22:17

Чтобы доказать аудитории, что человек абсолютно не осознает механику собственного тела, спикер предлагает детально разобрать обычный обед. Общаясь с друзьями, люди механически пережевывают пищу, например, твердую морковь. Спикер иронично спрашивает: может ли кто-то из присутствующих сознательно контролировать траекторию каждого отдельного зуба? Разумеется, нет. Наш челюстной аппарат имеет всего пару жестких степеней свободы, но мягкий язык выполняет сложнейшие манипуляции, проталкивая кусочки моркови к зубам, оценивая их размер и отправляя на повторное измельчение, пока мы увлеченно спорим.

Другой тест: если попросить человека достать что-то из кармана брюк, он мгновенно сделает это указательным и большим пальцами. Однако никто не сможет вспомнить, по какой именно математической траектории двигался второй сустав его пальца. Человек свято уверен, что полностью контролирует свои конечности, но не способен восстановить в памяти физические действия, совершенные две секунды назад.

Спикер объясняет: наше сознание (высшие отделы коры головного мозга) сидит в кресле генерального директора компании, отдавая лишь абстрактные приказы верхнего уровня, в то время как вся грязная, конкретная работа по расчету движений выполняется автономно в мозжечке. Нейробиология до сих пор не знает до конца, как устроен этот процесс. В качестве шокирующего примера спикер приводит исторический факт о знаменитом цыпленке Майке, который в 1945 году прожил 18 месяцев после того, как ему полностью отрубили голову. Хозяин кормил его через пипетку прямо в пищевод и возил по стране, зарабатывая огромные деньги. Видеозаписи современных аналогичных случаев подтверждают: птица без переднего мозга способна реагировать на внешние раздражители, удерживать баланс и даже пытаться клевать зерно. Это доказывает, что базовые физические функции организма прекрасно работают силами ствола мозга и мозжечка, без участия «директора» в голове.

Проведя эксперимент со скоростной видеосъемкой того, как он сам хватает фрукт из вазы, спикер обнаружил поразительные вещи. Оказалось, что человеческая рука не совершает никаких идеальных траекторий оптимизации. Человек просто «выбрасывает» расслабленную руку в направлении объекта, используя природную податливость суставов. В процессе захвата пальцы спикера совершили четыре хаотичные смены плана (план А, Б, В, Г), задев пять соседних фруктов и глубоко погрузившись в вазу. Весь процесс занял 0,7 секунды. Ни один современный алгоритм ИИ не способен реагировать так быстро. Спикер подчеркивает, что наши движения не оптимальны с точки зрения математики, но они обладают 1000%-й успешностью за счет гибкости и локальной реактивности.

🗣️ Ограниченность языка и зеркальные нейроны 28:14

Наше когнитивное искажение усугубляется тем, что мы привыкли обучаться и коммуницировать с помощью языка. Мы не осознаем, насколько абстрактным и неточным является этот инструмент. Спикер приводит классический пример с обучением ребенка приготовлению бутерброда с арахисовым маслом и джемом. Единственное слово, которое использует взрослый для описания сложнейшего физического процесса — «намажь» (spread). Никто не говорит ребенку формулу синуса угла наклона ножа или профиль распределения силы взаимодействия. Слово «намажь» в словаре имеет колоссальный уровень неопределенности (энтропии), но люди прекрасно понимают друг друга, потому что могут визуально копировать действия. Однако для большой языковой модели, пытающейся решить задачу робототехники, таких абстрактных текстовых данных катастрофически недостаточно.

По мнению ученого, человечество не разработало детальный язык для описания физических действий, потому что у нас есть зеркальные нейроны — так называемые «нейроны эмпатии». Открытые в ходе экспериментов на обезьянах, эти структуры активируются в мозгу наблюдателя точно так же, как в мозгу того, кто совершает действие (например, ест банан). Именно зеркальные нейроны заставляют нас плакать над фильмами, сопереживать баскетболистам на площадке и мгновенно считывать чужие эмоции. Благодаря этой встроенной системе симуляции нам не нужны слова: когда кто-то говорит «вытри поднос», человек мгновенно воспроизводит сложнейшую траекторию движения, не задумываясь о математических функциях стоимости.

Современный ИИ прекрасен в абстракциях и снижении размерности данных (этап энкодера), но декодирование — перевод абстракции в физическое действие — остается непреодолимым барьером. Спикер предупреждает: в визуальных и текстовых мирах нет жестких физических критериев правильности, там допустимы «галлюцинации», но в реальном физическом мире законы Ньютона не прощают ошибок.

🚗 Иллюзия «клонирования поведения» и тупик Теслы 32:11

Еще одно глубокое заблуждение научного сообщества кроется в неспособности мыслить количественно при программировании роботов. Без четкой целевой функции (cost function) ни один трансформер или алгоритм RL работать не будет. Почему четвероногие роботы сегодня отлично бегают, а манипуляции даются роботам с трудом? Всё дело в простоте целевой функции для локомоции: удерживай центр масс повыше, минимизируй тангаж и крен, и робот не упадет.

Попробуйте написать целевую функцию для задачи «помой посуду» или «убери комнату». Как ИИ должен оценивать степень чистоты комнаты? Путем бесконечного перебора случайных действий? Идея использовать визуально-языковые модели для оценки «чисто/грязно» по картинкам из интернета, по мнению спикера, имеет право на жизнь, но это невероятно долгий путь. Самое сложное — математически квантифицировать то, чего делать нельзя (ограничения системы). Робот должен принести стакан воды: функция награды может оптимизировать время или длину пути, но реальная сложность заключается в сотнях неписаных ограничений — не пролей воду, не сломай дверь, не разбей мебель. Написание этих скрытых ограничений вручную — самая тяжелая часть работы инженера, которую обычно опускают в научных публикациях.

Спикер категорически не согласен с утверждением Леонарда Эйлера о том, что все процессы во Вселенной следуют строгому принципу оптимизации. Любой биолог подтвердит, что эволюция — это не процесс оптимизации. Когда семейная пара покупает продукты в магазине, они не используют математические критерии, а руководствуются бинарным принципом «достаточно хорошо» (good enough). Спикер считает, что точным описанием эволюции является не «выживание наиболее приспособленных», а «выживание тех, кто оказался достаточно хорош». Однако запрограммировать робота на качественное «достаточно хорошо» вместо количественного оптимума невероятно сложно.

Сегодня в ИИ-сообществе популярна идея экстраполяции: якобы колоссальные объемы данных из интернета автоматически решат проблемы физического мира, как они решили проблемы текста и изображений. Спикер ставит этот тезис под сомнение. В виртуальном мире отсутствует неопределенность исполнения (execution uncertainty). При беспилотном вождении автомобиля, которое находится на стыке виртуального и физического миров, погрешность выполнения траектории колеблется около нуля (если только машина не едет по льду или в сильный снегопад). Но в задачах манипуляции, когда робот постоянно вступает в контакт с объектами и разрывает его, погрешность колоссальна, и одного лишь высокоуровневого планирования недостаточно — необходима мгновенная локальная обратная связь.

Спикер подробно разбирает технологию клонирования поведения (behavior cloning), активно продвигаемую ведущими университетами и ИТ-гигантами. Впечатляющие видеоролики, где робот убирает со стола, вытирает пролитый кетчуп и закрывает кран с водой, вызывают у обывателей мурашки. Однако спикер сравнивает этот алгоритм с человеком, который посмотрел фильм «Индиана Джонс» 100 раз. Если показать такому человеку двухсекундный отрывок, он безошибочно предскажет следующий кадр. Но если спросить его, что произошло бы, если бы Индиану Джонса насмерть раздавило каменным шаром в первой сцене, он не сможет ответить. Клонирование поведения — это лишь слепое следование по заранее прописанному сценарию с небольшой зоной размытия вокруг траектории.

Имея миллионы часов данных об успешной ходьбе миллиарда людей, humanoid-робот все равно мгновенно упадет от легкого толчка, потому что в «экспертных данных» попросту нет сценариев падения и алгоритмов восстановления. Телеоперация собирает исключительно успешные, красиво сгенерированные сценарии, оставляя робота беспомощным перед лицом реального хаоса. Опираясь на цитату Оскара Уайльда «Воображение имитирует, но критический дух создает», спикер подчеркивает, что слепое подражание никогда не заменит полноценное обучение политике поведения.

🛠️ Будущее физического интеллекта: иерархия рефлексов 44:45

Мощный прогресс в области мультимодальных языковых моделей (VLM) позволяет роботу примерно понять задачу по видео и построить грубую траекторию движения руки к яблоку. Однако ИИ абсолютно не способен решить проблему «последней мили» (или «последнего метра»), где вариативность движений при контакте с ручкой двери или коробкой взрывается подобно фракталу.

Чтобы преодолеть этот барьер, лаборатория спикера предлагает внедрить промежуточное представление — так называемые «липкие рефлексы» (sticky reflex) и «скользящие рефлексы» (gliding reflex), которые невозможно описать человеческим языком. Робот не должен планировать поворот каждого сустава на 45 градусов; он должен, подобно человеку, просто «выбросить руку» и схватить объект, доверяя локальную стабилизацию низкоуровневым рефлексам.

Продемонстрированное видео работы их робота без использования RL, глубокого обучения или клонирования поведения, работающего исключительно на простейшей инверсной кинематике и локальных конечных автоматах, доказывает: ИИ должен лишь указать цель («там яблоко»), а физическое заземление должно происходить на нижнем аппаратном уровне.

Спикер твердо верит в строго иерархическую структуру интеллекта, аналогичную устройству коммерческой компании. Если в здании начнется пожар, клерк не станет писать электронное письмо генеральному директору с просьбой прислать оптимальный план эвакуации — он мгновенно выбежит на улицу благодаря локальной реакции. Точно так же локальные рефлексы робота должны отрабатывать изменения за считанные миллисекунды, избавляя верхнеуровневый планировщик от необходимости ежесекундно пересчитывать физику вселенной. В этом заключается фундаментальное отличие физического действия от языка: язык по своей природе стохастичен и основан на условных соглашениях между людьми, тогда как физическое действие обязано подчиняться непреклонным законам физики.

❓ Вопросы, ответы и суровая экономика заводов 51:27

В финальной части семинара развернулась живая дискуссия с аудиторией. Отвечая на вопрос о разработке универсального промежуточного слоя между языком и физикой, спикер признался, что прямо сейчас занимается проектированием этой архитектуры, но пока не готов раскрывать все детали. Слушатели попытались оспорить тезис об отсутствии функции стоимости при покупке продуктов, предположив, что затраты на слишком детальный выбор и есть скрытая «стоимость». Спикер парировал, отметив, что как только барьер допустимости пройден, мозг полностью прекращает оптимизацию, что возвращает нас к концепции поиска допустимых решений (feasibility search).

Касаясь темы аппаратных ограничений и датчиков, исследователь сравнил создание полноценной системы ИИ со строительством дома. Если архитектор изначально заложил ошибочный силовой каркас здания (железо/hardware), то никакие косметические изменения, перестановка мебели или перекраска стен (программное обеспечение) не спасут проект — дом придется сносить и строить заново. Аппаратную часть необходимо выбирать с ювелирной точностью, и индустрия до сих пор нащупывает это разделение, сталкиваясь со сложной связанной задачей «софт плюс хард».

В качестве аналогии теста Тьюринга или базы данных MNIST для физического интеллекта спикер назвал задачу общего захвата объектов (general grasping). Несмотря на бравурные заявления ученых о том, что задача захвата решена еще в 2012 году, в реальности общего алгоритма не существует. Если высыпать перед современным роботом коробку с детскими игрушками, он не сможет вытащить игрушку, погребенную под другими, поскольку все его эффектные демонстрации натренированы под узкие, жестко прописанные сценарии глубокого обучения.

Спикер поделился инсайдами о венчурном рынке Кремниевой долины, отметив, что стартапы вынуждены бежать со всех ног из-за жестких временных рамок, выдвигая гипотезы и осознанно игнорируя белые пятна в своих технологиях. Крупные игроки, обладающие безграничными ресурсами, могут позволить себе радикальные смены курса (пивоты), когда осознают ошибочность парадигмы, хотя это обходится им невероятно дорого.

Прокомментировав реплику исследователя из зала о том, что современные алгоритмы клонирования поведения (включая проект Aloha от Stanford) уже включают в себя сбор данных об ошибках и симулируют ситуации с повторным загрязнением посуды кетчупом, спикер задал встречный вопрос: «Поможет ли сбор данных по мытью тарелки хоть как-то в задаче сортировки вилок и ложек?». Ответ очевиден — нет. Инженерия данных требует ручной разметки колоссального количества смысловых токенов действий, в то время как человечество до сих пор не понимает, как токенизировать физические действия так, как мы научились токенизировать текст и изображения.

Делая прогноз на ближайшие 15 лет, спикер выразил уверенность, что беспилотное вождение в глобальном масштабе будет окончательно реализовано. Однако в сфере манипуляций ситуация принципиально иная. Для управления автомобилем (перемещения из точки А в точку Б на плоскости) компании Tesla требуется содержать операторов и флот телеуправляемых машин стоимостью 7 миллионов долларов ради системы с двумя степенями свободы. Для полноценной манипуляции роботам необходимо минимум 10 степеней свободы в условиях бесконечной вариативности объектов.

Прогноз Илона Маска о быстрой победе гуманоидов спикер считает ошибочным на несколько порядков: текущая парадигма требует в 10 000 раз больше данных, что эквивалентно созданию десятков миллиардов роботов, которых невозможно продать клиентам до того, как они научатся работать.

Экономика реальных заводов сурова: стоимость самого манипулятора составляет всего 30-40 тысяч долларов. При этом затраты на его программирование под конкретную деталь превышают 100 тысяч, а сопутствующие рельсы и инфраструктура раздувают стоимость ячейки до 2–4 миллионов долларов. Робот — самый дешевый компонент системы. Заводам не нужна антропоморфность или пять пальцев, которые мгновенно изнашиваются за миллионы циклов; фабрикам критически необходимы гибкие, адаптивные алгоритмы, способные подстраиваться под изменение дизайна деталей без дорогостоящего перепрограммирования и обеспечивающие надежность на уровне 99,9%.