Питер Аббил: «Роботы должны учиться как дети»

Роботизация реального мира: Питер Аббил об искусственном интеллекте, обучении и универсальных вычислениях 0:00

Питер Аббил, профессор Калифорнийского университета в Беркли и сооснователь компании Covariant, вернулся на подкаст The TWIML AI Podcast спустя четыре года. С момента его прошлого визита область робототехники совершила значительный скачок: от лабораторных экспериментов к попыткам вывести интеллектуальные системы в реальный производственный сектор. В этой беседе Аббил обсуждает, почему современные промышленные роботы нуждаются в «мозгах» для полноценной автоматизации складов и как обучение с подкреплением в сочетании с неконтролируемым обучением становится ключом к созданию универсальных систем.

🤖 Выход из лаборатории: логистика и складская автоматизация 5:17

Основная цель Covariant — перевести робототехнику из режима «повторяющихся движений» в режим «вижу, думаю, реагирую». Большинство промышленных роботов на автомобильных заводах крайне эффективны, но они требуют жесткой структуры и предсказуемой среды.

По словам Аббила, их компания сфокусировалась на задачах, где автоматизация «рук» человека была практически невозможна:

Сбор заказов (Order Picking): Робот берет товар из хранилища и помещает его в контейнер для отправки.
Сортировка по заказам (Put-walling): Система берет смешанные товары из корзин и распределяет их по ячейкам конкретных заказов.
Сортировка посылок (Induction sorting): Обеспечение надежной подачи посылок на конвейер для их последующей сортировки.

Главная сложность заключается в «длинном хвосте» редких событий — миллионов различных SKU (позиций товаров) с уникальными упаковками и свойствами. Для достижения уровня надежности 99,9% система должна понимать общую концепцию объекта, а не просто заучивать конкретные предметы. В коммерческой среде этот показатель надежности означает, что вмешательство человека требуется не чаще одного раза в пару часов, что превращает робота из обузы в полноценный инструмент.

🧠 Обучение и «игра» как способ познания мира 37:05

Аббил подчеркивает важность объединения методов обучения. Reinforcement Learning (RL) — это метод проб и ошибок, который отлично работает в симуляциях (как AlphaGo). Однако для работы в реальности требуется высокая эффективность данных.

Исследователь выделяет три уровня развития интеллектуального робота:

Зрение: Обучение пониманию того, что видит робот, через контрастивное обучение (сопоставление разных ракурсов одного и того же объекта).
Понимание мира: Обучение тому, как мир взаимодействует с объектами (контактные силы, физика), на основе анализа видеопотока.
Игра: Предоставление роботу возможности самостоятельно «играть» в среде, подобно детям, чтобы обрести интуитивное понимание физических законов без внешнего надзора.

Аббил отмечает: «Curiosity»-ориентированное исследование работает в закрытых средах, но в реальном мире, где возможностей бесконечно много, важно иметь встроенную «интуицию» о том, что именно в окружающей среде стоит изучать.

🚀 Трансформеры как универсальные «двигатели» вычислений 54:07

Обсуждая недавнюю работу о предобученных трансформерах (Pre-trained transformers as universal computation engines), Аббил рассказал об удивительном открытии: нейросети, обученные только на тексте, проявляют способность к решению задач, далеких от языка, если к ним добавить простые линейные слои.

Суть эксперимента: Исследователи заморозили трансформер (за исключением параметров нормализации) и обучили лишь входной и выходной слои классифицировать изображения, предсказывать сайты связывания белков или выполнять математические операции (XOR).
Вывод: Нейросеть, обученная на огромных массивах текста, интернализует общие механизмы рассуждения, которые можно переносить в другие домены.
Сравнение: Случайно инициализированный трансформер показывает некоторые способности, но предобученная на языке модель значительно превосходит его, доказывая, что накопленный опыт «рассуждения» переносим.

В будущем Аббил видит огромный потенциал в мультимодальном обучении — одновременной тренировке на тексте, изображениях, звуке и видео для создания по-настоящему унифицированных представлений о мире.