# Питер Аббил: «Роботы должны учиться как дети»

Источник: https://www.youtube.com/watch?v=ILOYNXUYUxA
Канал: The TWIML AI Podcast
Опубликовано: 19.04.2021

---

## Роботизация реального мира: Питер Аббил об искусственном интеллекте, обучении и универсальных вычислениях
[[JUMP:0:00]]

Питер Аббил, профессор Калифорнийского университета в Беркли и сооснователь компании Covariant, вернулся на подкаст The TWIML AI Podcast спустя четыре года. С момента его прошлого визита область робототехники совершила значительный скачок: от лабораторных экспериментов к попыткам вывести интеллектуальные системы в реальный производственный сектор. В этой беседе Аббил обсуждает, почему современные промышленные роботы нуждаются в «мозгах» для полноценной автоматизации складов и как обучение с подкреплением в сочетании с неконтролируемым обучением становится ключом к созданию универсальных систем.

### 🤖 Выход из лаборатории: логистика и складская автоматизация
[[JUMP:5:17]]

Основная цель Covariant — перевести робототехнику из режима «повторяющихся движений» в режим «вижу, думаю, реагирую». Большинство промышленных роботов на автомобильных заводах крайне эффективны, но они требуют жесткой структуры и предсказуемой среды.

По словам Аббила, их компания сфокусировалась на задачах, где автоматизация «рук» человека была практически невозможна:

*   **Сбор заказов (Order Picking):** Робот берет товар из хранилища и помещает его в контейнер для отправки.
*   **Сортировка по заказам (Put-walling):** Система берет смешанные товары из корзин и распределяет их по ячейкам конкретных заказов.
*   **Сортировка посылок (Induction sorting):** Обеспечение надежной подачи посылок на конвейер для их последующей сортировки.

Главная сложность заключается в «длинном хвосте» редких событий — миллионов различных SKU (позиций товаров) с уникальными упаковками и свойствами. Для достижения уровня надежности 99,9% система должна понимать общую концепцию объекта, а не просто заучивать конкретные предметы. В коммерческой среде этот показатель надежности означает, что вмешательство человека требуется не чаще одного раза в пару часов, что превращает робота из обузы в полноценный инструмент.

### 🧠 Обучение и «игра» как способ познания мира
[[JUMP:37:05]]

Аббил подчеркивает важность объединения методов обучения. Reinforcement Learning (RL) — это метод проб и ошибок, который отлично работает в симуляциях (как AlphaGo). Однако для работы в реальности требуется высокая эффективность данных.

Исследователь выделяет три уровня развития интеллектуального робота:

1.  **Зрение:** Обучение пониманию того, что видит робот, через контрастивное обучение (сопоставление разных ракурсов одного и того же объекта).
2.  **Понимание мира:** Обучение тому, как мир взаимодействует с объектами (контактные силы, физика), на основе анализа видеопотока.
3.  **Игра:** Предоставление роботу возможности самостоятельно «играть» в среде, подобно детям, чтобы обрести интуитивное понимание физических законов без внешнего надзора.

Аббил отмечает: «Curiosity»-ориентированное исследование работает в закрытых средах, но в реальном мире, где возможностей бесконечно много, важно иметь встроенную «интуицию» о том, что именно в окружающей среде стоит изучать.

### 🚀 Трансформеры как универсальные «двигатели» вычислений
[[JUMP:54:07]]

Обсуждая недавнюю работу о предобученных трансформерах (Pre-trained transformers as universal computation engines), Аббил рассказал об удивительном открытии: нейросети, обученные только на тексте, проявляют способность к решению задач, далеких от языка, если к ним добавить простые линейные слои.

*   **Суть эксперимента:** Исследователи заморозили трансформер (за исключением параметров нормализации) и обучили лишь входной и выходной слои классифицировать изображения, предсказывать сайты связывания белков или выполнять математические операции (XOR).
*   **Вывод:** Нейросеть, обученная на огромных массивах текста, интернализует общие механизмы рассуждения, которые можно переносить в другие домены.
*   **Сравнение:** Случайно инициализированный трансформер показывает некоторые способности, но предобученная на языке модель значительно превосходит его, доказывая, что накопленный опыт «рассуждения» переносим.

В будущем Аббил видит огромный потенциал в мультимодальном обучении — одновременной тренировке на тексте, изображениях, звуке и видео для создания по-настоящему унифицированных представлений о мире.