Почему роботы бьют посуду и как ИИ обретает здравый смысл

Развитие искусственного интеллекта и робототехники долгое время сдерживалось глубоким разрывом между возможностями физического оборудования и алгоритмами автономного управления. В рамках интеллектуальной беседы на Lex Fridman Podcast ведущий Лекс Фридман и профессор Калифорнийского университета в Беркли Сергей Левин обсуждают, почему роботам так трудно ориентироваться в хаотичном реальном мире и как обучение с подкреплением может стать ключом к пониманию самой природы интеллекта. Собеседники подробно разбирают концепцию «айсберга знаний», парадокс Моравека, ограничения современных симуляций и долгосрочные перспективы создания систем, способных развиваться бесконечно.

🧠 Мозг против тела: где скрывается истинный тупик робототехники 3:05

Различие между современным человеком и самым передовым роботом кроется не в физических возможностях, а в способности к автономному мышлению. В сообществе исследователей ИИ популярно демонстрационное видео 2004 года, созданное в Стэнфордском университете, где прототип домашнего робота PR1 наводит порядок в гостиной, собирает игрушки и в финале привозит человеку на диване бутылку пива. Прозвучавший следом забавный, но отрезвляющий факт заключается в том, что этот робот полностью управлялся оператором-человеком.

Сергей Левин подчеркивает, что если бы робот обладал человеческим мозгом, то разрыв в возможностях между ним и нами был бы минимальным. Создание сложных, устойчивых и упругих физических манипуляторов — это решаемая задача, требующая лишь определенного объема финансовых инвестиций и классической инженерной работы. Настоящим узким горлышком ИИ-систем сегодня является разум (mind), а не тело (body).

Масштаб когнитивного разрыва между человеком и машиной напрямую зависит от степени открытости и непредсказуемости окружающего мира. По словам гостя, в жестко контролируемой среде, например, на автомобильном заводе, робот способен демонстрировать «сверхчеловеческие» результаты: он сильнее, быстрее и может без устали поднимать машины. Однако в условиях открытого мира — например, на обычной домашней кухне, где окружение постоянно меняется — традиционные роботизированные системы мгновенно терпят неудачу.

🌊 Опыт против эволюции: как формируется «айсберг» здравого смысла 6:00

Вопрос о соотношении врожденных эволюционных механизмов (nature) и прижизненного обучения (nurture) в человеческом сознании остается предметом дискуссий. Биологические процессы чрезвычайно запутаны, и ученые находят подтверждения для множества противоположных гипотез. Для индустрии искусственного интеллекта важнее определить минимально достаточные условия, позволяющие системе успешно функционировать.

Человеческий мозг обладает колоссальной гибкостью и способностью адаптироваться к ситуациям, к которым эволюция его физически не могла подготовить. В качестве примера Сергей Левин приводит мысленный эксперимент:

Если человеку, который никогда не сталкивался с роботами, впервые дать в руки джойстик для управления сложным механическим манипулятором и сказать, что от этого зависит его жизнь, то первые несколько секунд он будет действовать неуклюже. Однако очень скоро он сориентируется и сможет решить задачу — например, открыть дверь.

Эта приспособляемость указывает на то, что под любым нашим действием лежит невидимый «айсберг знаний». По мнению Сергея Левина, этот колоссальный массив информации о структуре мира формируется и накапливается в течение всей жизни человека за счет непрерывного взаимодействия с хаотичной средой, а не передается по наследству в готовом виде.

Современное машинное обучение сталкивается с трудностями именно при попытке извлечь подобный здравый смысл из неструктурированного опыта. Традиционный подход чересчур зажат в рамки жесткого обучения с учителем (supervised learning), работающего по жесткой схеме «вход — выход» ($X \to Y$). Гость предполагает, что для качественного прорыва ИИ должен воспринимать мир как непрерывный поток наблюдений, не дающий готовых правильных ответов, но предлагающий бесчисленные варианты физических причинно-следственных связей.

🌐 Философия взаимодействия: почему интернета недостаточно для обучения ИИ 10:31

В научном сообществе остается открытым вопрос о том, откуда именно искусственный интеллект должен получать свой основополагающий опыт. Достаточно ли просто загрузить в систему все текстовые и визуальные материалы из интернета (как это происходит с гигантскими языковыми моделями), или машине жизненно необходимо физически взаимодействовать с миром? Сергей Левин склоняется ко второму варианту: мир устроен настолько сложно, что случайная выборка статичных данных из Сети не позволит сформировать глубокое понимание реальности.

Истинный здравый смысл, по мнению исследователя, рождается в процессе активного выбора действий, фиксации их счастливых или печальных исходов и постоянного обновления внутренней модели мира. Это позволяет развивать способность отвечать на контрфактуальные (гипотетические) вопросы.

Обычный человек точно знает, что если он намеренно опрокинет стоящую на столе бутылку с водой, это не приведет ни к чему хорошему. ИИ-агент с плохим пониманием физики среды может посчитать это действие полезным, если в его обучающей выборке не было подобных примеров. Постоянная замкнутая петля самосовершенствования, основанная на реальных пробах и ошибках — это то, что должно отличать лучшие алгоритмы будущего от сегодняшних систем.

Классическая концепция обучения с подкреплением (Reinforcement Learning) требует от агента строгого максимизирования заданной функции полезности. Сергей Левин описывает альтернативный, многозадачный подход, который кажется ему более перспективным для общего интеллекта:

Этап свободной эксплорации (исследования): агент изучает мир без конкретной цели, руководствуясь любопытством, и формирует обширный арсенал когнитивных инструментов.
Этап выполнения задач: когда перед агентом внезапно ставят конкретное требование (например, «принеси кофе»), он оказывается к нему полностью готов благодаря накопленной базе знаний.

🤖 Парадокс Моравека и интеграция восприятия и контроля 16:14

У робототехники есть две фундаментальные цели. Прагматическая цель заключается в создании систем, способных выполнить любое физически возможное поручение человека. Вторая, более глубокая цель, ради которой Сергей Левин и посвятил себя этой науке, рассматривает робототехнику как идеальную экспериментальную площадку для изучения и понимания природы самого интеллекта.

Робототехника заставляет ученых убрать привычные инженерные «костыли». В классическом модульном подходе принято разделять общую задачу на независимые подзадачи (восприятие, контроль, планирование), решать их по отдельности, а затем соединять проводами. Но изучение системы как единого целого приводит к совершенно иным результатам.

Именно здесь во всей красе проявляется парадокс Моравека. Высшая математика, интегральное и дифференциальное исчисление даются компьютерам легко, так как их можно жестко запрограммировать. При этом простейшие для любого человека действия — например, взять со стола стакан воды и сделать глоток — вызывают у роботов колоссальные трудности. Такие поразительные расхождения явно указывают на то, что в наших фундаментальных теориях об ИИ упущено нечто важное.

В 2014 году команда Сергея Левина опубликовала прорывную работу по сквозному (end-to-end) обучению роботов манипуляциям напрямую из зрительного восприятия. Традиционное модульное решение требовало сначала определить точные 3D-координаты объекта с помощью детектора, а затем рассчитать движения манипулятора. Сквозной метод обучал нейросеть преобразовывать «сырые» пиксели с камеры напрямую в крутящий момент моторов.

Эксперимент с помещением красного трапециевидного колышка в соответствующий паз показал, что сквозное решение гораздо эффективнее справляется с ошибками. Нейросети не нужно вычислять идеальное положение объекта в пространстве: она понимает, что погрешность по вертикали не имеет значения (робот просто давит вниз до упора), тогда как горизонтальное смещение критично. Система оптимально перераспределяет нагрузку между восприятием и контролем, позволяя отдельным компонентам оставаться «слабыми» при сохранении высокой итоговой точности.

Природа активно использует подобные сквозные механизмы. Ярким примером служит «эвристика взгляда» (gaze heuristic):

Суть механизма: чтобы поймать летящий мяч, человеку или собаке не нужно решать в уме сложные дифференциальные уравнения, рассчитывать сопротивление ветра и траекторию.
Правило действия: достаточно двигаться с такой скоростью, чтобы угол обзора на объект оставался неизменным в поле зрения. Если мяч визуально опускается — нужно ускориться, если поднимается — замедлиться.

Этим простым правилом неосознанно пользуются бейсболисты, пилоты самолетов при угрозе столкновения и лягушки, охотящиеся на насекомых.

🦾 Эволюция захвата объектов: от геометрии к чистому обучению 27:42

Примерно до 2016 года роботизированный захват предметов (robotic grasping) считался канонической и самой востребованной задачей в индустрии из-за колоссальных коммерческих перспектив в автоматизации складов. Исторически эту проблему пытались решать методами обратной графики и обратной физики: робот сканировал геометрию объекта, вычислял его форму и на основе законов механики пытался рассчитать идеальные точки соприкосновения пальцев.

Практика показала, что классический геометрический подход работает плохо. Современный стандарт — это методы машинного обучения, подкрепленные либо масштабными симуляциями, либо реальным опытом проб и ошибок.

Сложность захвата обусловлена бесконечным разнообразием предметов. Стратегия, идеальная для жестких картонных коробок, полностью проваливается при попытке поднять мягкий пластиковый пакет. Объекты обладают массой негеометрических свойств: они могут гнуться, деформироваться, проскальзывать, проворачиваться в руке или опрокидываться, рассыпая и разливая свое содержимое.

Сергей Левин подчеркивает, что здравый смысл — это эмерджентное (возникающее само по себе) свойство ИИ, вынужденного жить и выживать в определенной вселенной. Современная система автоматического описания изображений может перепутать человека в шубе с плюшевым медведем именно потому, что она не живет в нашем мире. Она обитает в двухмерном пространстве пикселей и текстовых строк, и ей незнакомо физическое ощущение зимнего холода, заставляющее надевать теплую одежду.

Сквозное обучение способно полностью заменить ручное проектирование алгоритмов. По мнению гостя, это не радикально новая концепция, а логическое продолжение идей оптимального управления (optimal control) родом из 1960-х годов. Разница лишь в том, что сегодня оптимизация за счет нейросетей проникает на глубокий уровень репрезентации данных, позволяя машине самостоятельно накапливать знания в процессе работы.

Наследие символьного ИИ и экспертных систем прошлого никуда не исчезло. Логические правила трансформировались в вероятностные модели (Байесовские сети) в 1990-х годах, а затем превратились в глубокие нейросети. Когда мы обучаем крупную модель предсказывать физические последствия действий робота, а затем инвертируем ее для поиска оптимального решения — мы, по сути, выполняем логический вывод, где роль правил играют веса нейросети.

📖 Поиск объяснимости: истории, которые мы рассказываем машинам 39:43

Человеческая психика устроена так, что мы отчаянно требуем от искусственного интеллекта объяснимости (explainability) — мы хотим, чтобы машина могла поэтично и убедительно обосновать, почему она приняла то или иное решение. Сергей Левин считает, что к этой проблеме стоит относиться прагматично, как к части более широкого процесса валидации и верификации сложных систем.

Интересный подход к этой проблеме продемонстрировал бывший коллега Левина, ныне профессор Массачусетского технологического института (MIT) Якоб Андреас. Он интегрировал естественный язык непосредственно во внутреннее состояние (internal state) политики обучения с подкреплением. При столкновении с новой задачей агент буквально начинал «мыслить вслух»:

Модель генерировала текстовые гипотезы в духе «мне нужно пойти в красный дом», пробовала совершить действие и, если не получала награды, меняла формулировку на «мне нужно пойти в зеленую комнату». Как только действие приводило к успеху, фраза фиксировалась в памяти как руководство к дальнейшим шагам.

В результате исследователи получили возможность заглянуть в «разум» нейросети, просто читая строковые логи ее внутренних состояний. Лекс Фридман развивает эту мысль, предполагая, что если добавить субъективную «убедительность истории» в качестве дополнительного фактора в функцию вознаграждения, ИИ научится виртуозно адаптировать свои объяснения под ожидания человека. В эпоху фейковых новостей и социальных сетей это может стать пугающим инструментом, когда убедительность нарратива окажется важнее объективной истины.

⚙️ Механика обучения с подкреплением и вызовы офлайн-среды 44:52

В современном понимании обучение с подкреплением стало синонимом управления на основе данных. Его задача — обеспечение последовательного принятия рациональных решений, максимизирующих заданную меру полезности во времени. Математически RL является глобальным обобщением обучения с учителем, но с гораздо меньшим количеством жестких допущений (нам не требуется независимая одинаково распределенная выборка и готовые маркеры правильных ответов).

Главным барьером, разделяющим лабораторные успехи RL и их массовое практическое внедрение, является неумение алгоритмов эффективно работать с накопленными архивными данными. Этот подход называется офлайн-обучением с подкреплением (offline RL, off-policy RL или batch RL).

Основная сложность офлайн-режима упирается в контрфактуальный анализ — необходимость отвечать на вопросы о том, чего никогда не было в собранных логах. Если беспилотный автомобиль обучается исключительно на записях безопасного вождения, его внутренняя модель просто не знает, что произойдет, если резко выкрутить руль в сторону тротуара с пешеходами. Не имея негативного опыта, алгоритм может ошибочно счесть это действие высокоэффективным.

Чтобы преодолеть этот тупик, исследователи Беркли внедряют методы оценки плотности распределения данных и регуляризацию обучающего процесса. Если модель пытается выбрать действие, которое радикально отличается от всего, что содержится в исторической базе, алгоритм жестко штрафует систему, запрещая ей задавать вопросы, на которые она объективно не способна ответить.

Сергей Левин убежден, что это в первую очередь алгоритмическая проблема, лежащая на стыке статистического анализа и причинно-следственного вывода (causal inference). Идеальный рецепт будущего выглядит как комбинация, где 99% опыта система извлекает из офлайн-архивов («айсберга»), а оставшийся 1% добирает за счет аккуратного точечного исследования новой среды в реальном времени.

🍽️ Границы нейросетевых представлений и проблема «битой посуды» 57:10

Самая изящная и математически строгая идея обучения с подкреплением заключается в том, что агент способен сформировать практически идеальную стратегию поведения, вообще не имея законченной, детальной модели окружающего мира. Глубокое RL соединило этот принцип с нейросетями высокой емкости, полностью избавив ученых от необходимости вручную проектировать признаки (features) для управления. Если в шахматах или го гроссмейстеры еще могли подсказать программистам базовые паттерны вроде «конь в центре доски», то в робототехнике ручное описание визуальных признаков для манипуляций — абсолютно непроглядная стена.

Однако при переносе глубокого обучения с подкреплением из симуляторов в реальный физический мир исследователи немедленно упираются в проблему «битой посуды»:

Если вы оставите робота наедине с грязными тарелками на реальной кухне и запустите классический алгоритм проб и ошибок, он разобьет всю вашу посуду до того, как научится ее мыть. И вам просто не на чем будет продолжать обучение.

У человека в процессе обучения всегда присутствует когнитивный каркас (scaffolding): разбив одну тарелку, мы становимся аккуратнее, а если сталкиваемся с непонятным — просим о помощи. В стандартной математической формулировке RL этого механизма нет.

Вторая фундаментальная проблема — создание функции вознаграждения (reward function). Чтобы робот понял, хорошо ли он налил воду в стакан, инженерам приходится параллельно создавать сложнейшую обособленную систему компьютерного зрения, которая будет фиксировать факт успешного выполнения задачи, что выглядит крайне неэлегантно.

Именно поэтому алгоритмы вроде AlphaZero от Дэвида Сильвера достигают феноменальных результатов: в виртуальном мире игры го нет бьющейся посуды, а правила начисления очков абсолютно прозрачны. Там масштабирование упирается исключительно в бюджет на вычислительные мощности. Для прорыва в физической реальности роботам необходимы мета-обучение (meta-learning) и многозадачность, позволяющие повторно использовать любой крупицы прошлого опыта.

Этот же вызов актуален и для беспилотного транспорта, например, для автопилота Tesla с его многозадачной архитектурой HydraNet. В критических для безопасности условиях ИИ обязан в каждый момент времени четко осознавать границы применимости своих моделей и понимать, можно ли доверять собственным прогнозам прямо сейчас.

🔮 Симуляции, гипотеза реальности и уроки «Горького урока» 1:08:11

Симуляция — великолепный и прагматичный инструмент, но в долгосрочной перспективе она неизбежно становится главным барьером на пути прогресса ИИ. Сергей Левин формулирует универсальное правило:

Любое узкое горлышко системы, созданное руками человека и не способное автоматически улучшаться за счет притока новых данных, рано или поздно затормозит развитие этой системы. Если ИИ опирается только на симулятор, потолком его развития станет сам симулятор.

Комментируя знаменитую гипотезу о том, что наша Вселенная может являться виртуальной симуляцией, гость отмечает забавный парадоксальный вывод. Если человечество способно создать настолько безупречный виртуальный мир, что в нем можно обучить полноценный искусственный интеллект для реального мира, это означает, что сотворить целую Вселенную технически проще, чем смоделировать один единственный мыслящий мозг.

В процессе усложнения среды роботам придется учиться взаимодействовать с другими людьми. Сергей Левин выражает надежду, что понимание чужих целей, мотивов и намерений (так называемая модель психики человека) сможет автоматически развиться у ИИ-агентов как побочный продукт максимизации их собственной полезности в процессе многоагентного взаимодействия.

Машине не нужно заранее объяснять базовые законы физики, включая гравитацию. Если при каждом падении предмета ИИ фиксирует закономерность, он моментально выведет условную ньютоновскую механику из «сырых» данных, и этого будет вполне достаточно для рационального поведения. Попытки человека навязать алгоритмам свои готовые знания часто уводят их в тупик. Впрочем, человеческая цивилизация и сама веками застревала в локальных минимумах — гость напоминает, что вплоть до появления научного метода люди руководствовались дикими и суеверными представлениями о биологии и медицине.

Механизм самообучения через игру с самим собой (self-play), творящий чудеса в настольных играх, требует четкого медиатора. В шахматах правилами игры управляет жесткий код. В робототехнике единственным истинным и объективным медиатором для взаимодействия агентов способна выступать только сама физическая природа.

Набирающее популярность направление «обучения с подкреплением без учителей» (unsupervised RL) ищет внутренние источники мотивации для машин. Прорывы в этой области опираются на концепции вычислительной нейробиологии, сформулированные Карлом Фристоном, такие как минимизация Байесовской меры удивления.

Эксперименты показывают, что ИИ-агент, стремящийся сделать мир вокруг себя максимально предсказуемым, внезапно демонстрирует осмысленное поведение. Например, играя в «Тетрис», такая система начинает увлеченно очищать ряды блоков просто потому, что это позволяет ей дольше оставаться в игре и сохранять игровое поле в чистом, стабильном и предсказуемом состоянии. Любопытство и творчество — это не отдельные надстройки, а естественное следствие оптимизации общих возможностей системы.

🎯 Выравнивание ИИ и личный «функтор вознаграждения» ученого 1:22:06

Размышляя о проблеме выравнивания ИИ (AI alignment) и экзистенциальных угрозах, активно продвигаемых Стюартом Расселом, Сергей Левин высказывает неочевидную позицию. В то время как философы боятся сверхоптимизированных систем, которые буквально исполнят команду «избавить мир от рака», уничтожив все человечество, гость куда сильнее обеспокоен прямо противоположным:

Сейчас наибольшую опасность представляют алгоритмы, которые оптимизированы недостаточно хорошо. Ошибки в коде или плохая сходимость в критически важных системах вроде беспилотных самолетов или автомобилей — вот реальный вызов сегодняшнего дня.

В исторической перспективе на масштабах сотен лет экзистенциальные риски технологий неоспоримы. Однако Сергей Левин твердо убежден, что на протяжении всей человеческой истории главной угрозой всегда являлись злонамеренные люди (nefarious humans), использующие инструменты во вред, а вовсе не восставшие машины.

Анализируя знаменитый манифест Ричарда Саттона «Горький урок» (The Bitter Lesson), утверждающий, что в ИИ всегда побеждают простые методы, масштабируемые за счет компьютерных мощностей, Левин предлагает свою интерпретацию. Нам жизненно необходимы общие, универсальные алгоритмы, но их главная цель — автоматизировать автономный сбор данных в реальном физическом мире.

Своим главным источником вдохновения в детстве ученый называет фантастические произведения Айзека Азимова, заставившие его задуматься о глобальной роли роботов в эволюции общества. Интересно, что Левин долгое время не планировал заниматься искусственным интеллектом, считая, что значимых прорывов при его жизни не случится. Всё изменилось в аспирантуре в 2009–2010 годах, когда он попал на семинар знаменитого профессора Эндрю Нг. Тот во вступительной лекции признался студентам, что изменил свое скептическое отношение и теперь верит: наше поколение станет свидетелем фундаментального технологического прорыва в области ИИ.

Молодым исследователям Сергей Левин советует никогда не тратить свои жизни ради улучшения абстрактных цифр в бенчмарках вроде ImageNet. Вместо этого нужно детально вообразить вдохновляющий конечный продукт — будь то робот-дворецкий или идеальная система диагностики в здравоохранении — и начать планомерно раскручивать цепочку технологических шагов назад от этой цели. Такой подход заставляет пересматривать ложные догмы и находить неочевидные точки роста.

Свой личный внутренний «функтор вознаграждения» ученый описывает очень просто — это глубокое удовлетворение от осознания того, что ты тратишь отведенное тебе время на решение задачи, которая действительно имеет колоссальное значение для мира. Финальная мечта Сергея Левина — построить алгоритм, который сможет развиваться бесконечно, не упираясь в искусственные ограничения симуляторов или человеческого кода, а штурмуя непосредственный потолок сложности нашей Вселенной.