Драго Ангелов на подкасте The TWIML AI Podcast: системный дизайн автономного транспорта и симуляция 20 млрд миль

В рамках подкаста The TWIML AI Podcast Сэм Черрингтон побеседовал с выдающимся ученым и руководителем отдела исследований Waymo Драго Ангеловым. Эксперт подробно описал эволюцию систем беспилотного вождения, объяснил, почему гибридный подход превосходит чисто нейросетевой, и рассказал о роли активных сенсоров в преодолении «длинного хвоста» редких дорожных ситуаций.

🎓 От теории к практике: карьерный путь Драго Ангелова 2:12

Драго Ангелов позиционирует себя как специалиста по машинному обучению и компьютерному зрению . Свою научную карьеру он начинал в Стэнфордском университете под руководством известного профессора Дафни Коллер. В начале 2000-х годов исследовательская группа Коллер занималась широким спектром тем — от обработки естественного языка и теории игр до планирования и обучения с подкреплением . Однако именно Ангелов стал ее первым аспирантом, который сфокусировался на применении машинного обучения для задач восприятия (perception) .

Поскольку для исследований в области компьютерного зрения требовались физические носители, научная группа начала сотрудничать с Себастьяном Труном, известным робототехником, который перешел в Стэнфорд как раз в период обучения Ангелова . Себастьян Трун стал неофициальным соруководителем молодого ученого, благодаря чему тот погрузился в практические задачи робототехники. В этот же период в Стэнфорде формировалась команда для участия в технологических гонках роботов DARPA Grand Challenge .

После окончания аспирантуры Драго Ангелов выбрал работу в стартапе, временно отложив тему беспилотных машин. Позже, в 2007 году, он перешел в Google, где возглавил команду технологического лидерства (Tech Lead) по оценке положения (pose estimation) и 3D-реконструкции в проекте Google Street View . Команда разрабатывала инновационные на тот момент функции, включая так называемый «панкейк» (pancake) — инструмент, позволяющий пользователям плавно масштабировать изображение улиц вверх и вниз с восстановлением трехмерной геометрии окружения .

Когда в конце 2008 — начале 2009 года Себастьян Трун запустил в Google секретный проект по разработке беспилотного автомобиля, многие коллеги Ангелова перешли туда. Сам ученый признается, что дважды отказывался от аналогичных предложений :

В 2009 году проект беспилотника казался ему слишком ранним и экспериментальным . Вместо этого он сосредоточился на глубоком обучении и возглавил исследовательскую команду Google Research, которая создала нейросетевую серверную архитектуру для распознавания и каталогизации изображений в сервисе Google Photos, запущенном в 2013 году .
В 2013 году, на фоне запуска Google Photos, команда беспилотного автомобиля снова пригласила его к сотрудничеству, но Ангелов вновь ответил отказом .

Лишь во второй половине 2015 года исследователь пришел к выводу, что технологии глубокого обучения созрели для решения задач трехмерного восприятия и прогнозирования поведения объектов в реальном времени. С этого момента он полностью посвятил себя индустрии автономного транспорта .

🚗 Архитектура Waymo: пять поколений беспилотного «драйвера» 9:10

Драго Ангелов присоединился к Waymo летом 2018 года с целью создания и масштабирования специализированного исследовательского подразделения . На тот момент компания была сфокусирована преимущественно на производстве и выпуске готового стека технологий . Исследовательская команда начиналась всего с шести человек, но быстро превратилась в горизонтальную структуру, обслуживающую ключевые компоненты автономного вождения: восприятие, прогнозирование движения (prediction), планирование траектории (planning) и симуляцию .

В основе инженерной философии Waymo лежат три фундаментальных столпа: аппаратное обеспечение (включая автомобили и сенсоры), бортовое программное обеспечение и методы валидации безопасности . Ключевые аспекты этой архитектуры включают в себя:

Пятое поколение аппаратной платформы. Компания использует зрелую систему датчиков и вычислительных мощностей с дублированием контуров управления и торможения .
Мультисенсорный стек. Бортовой комплекс сочетает активные датчики (лидары и радары собственного производства) с пассивными (камеры) . Ангелов подчеркивает, что эти технологии дополняют друг друга.
Единый «драйвер» для разных платформ. Одно и то же ядро программных модулей управляет как легковыми беспилотными такси, так и тяжелыми грузовиками класса A (Class A trucks) на автомагистралях, адаптируясь под габариты и динамику каждого типа машин .

По словам гостя, Waymo обладает подтвержденным опытом безопасного вывода водителя из-за руля . С 2017 года компания тестировала полностью беспилотный режим в Фениксе, штат Аризона, сначала в ограниченном режиме. До пандемии COVID-19 сервис выполнял от 1000 до 2000 поездок еженедельно, из которых 5–10% проходили в полностью автономном режиме . Начиная с осени 2020 года Waymo перевела коммерческий сервис в Фениксе на 100% беспилотное обслуживание на площади в 50 квадратных миль, что сопоставимо с размером Сан-Франциско .

⚡ Симуляция и масштабирование: 20 миллиардов виртуальных миль 14:22

Одной из главных задач своей команды Драго Ангелов называет масштабируемость системы на десятки городов мира без необходимости привлечения огромного штата инженеров для ручной настройки алгоритмов под каждый новый перекресток .

В процессе валидации беспилотников компания использует комбинацию двух подходов:

Натурные испытания. Автомобили Waymo проехали более 20 миллионов миль по реальным общественным дорогам, накапливая бесценный опыт под контролем водителей-испытателей .
Виртуальная симуляция. В виртуальной среде автомобили компании преодолели уже более 20 миллиардов миль . В каждый момент времени в симуляторе одновременно «двигается» эквивалент флота из 25 000 машин .

Как объясняет эксперт, масштабирование на новые города сдерживается не только регуляторными или техническими барьерами, но и необходимостью минимизировать участие экспертов в ручной доработке кода движения . Для этого Waymo создает гибридную систему. Она сочетает алгоритмы машинного обучения с экспертно спроектированными правилами и предохранителями (fallbacks) . Если нейросеть сталкивается с абсолютно незнакомым сценарием, управление перехватывает классический отказоустойчивый алгоритм, гарантирующий безопасное поведение машины .

📡 Сенсорное слияние: ранняя, поздняя и гибридная интеграция данных 27:32

Важнейшей задачей систем восприятия является обеспечение надежности в экстремально редких ситуациях («длинный хвост» распределения событий) . По мнению Ангелова, подход с использованием исключительно камер имеет существенные ограничения. Камера — это пассивный сенсор. Обработка визуального сигнала сильно зависит от освещения, погодных условий (туман, дождь, снегопад) и визуального разнообразия сцен .

Использование активных датчиков (лидаров и радаров) дает критически важный резерв безопасности: даже если нейросеть не распознает на изображении с камеры нестандартный объект, активный сенсор физически зафиксирует препятствие по отраженному сигналу .

Ангелов выделяет три основных метода слияния данных от разных датчиков:

Раннее слияние (Early Fusion). Сырые сигналы со всех сенсоров объединяются в один поток и передаются в единую глубокую нейросеть, на выходе которой получаются трехмерные рамки (bounding boxes) обнаруженных объектов . Этот подход лидирует в академических тестах, но несет в себе риск коррелированной ошибки, когда из-за сбоя в общей модели игнорируются сигналы всех датчиков сразу .
Позднее слияние (Late Fusion). Сигналы с камер, лидаров и радаров обрабатываются независимыми нейросетями . Их выводы объединяются на финальной стадии трекинга. Это гарантирует независимость ошибок: если сбой происходит в зрительной модели, радарная модель все равно продублирует обнаружение . Минус подхода — потеря контекста. Например, низкоразрешающий радар намного легче интерпретировать, если у алгоритма есть контекст с высокодетализированной камеры .
Гибридное слияние (Mixed Fusion). Промежуточный вариант, который сочетает в себе элементы раннего обмена контекстом и сохраняет независимость контуров принятия решений для исключения общих сбоев .

Эксперт отмечает, что на физическом уровне происходит сближение типов датчиков: лидары с каждым годом становятся дешевле, а их разрешение растет, приближая их к камерам . В то же время алгоритмы монокулярной оценки глубины по видеокадрам совершенствуются настолько быстро, что пассивные камеры начинают генерировать плотные карты глубины, сопоставимые по качеству с лидарными облаками точек .

🧠 Эволюция ИИ-архитектур: от сверточных сетей к графам и трансформерам 40:26

В последние годы индустрия машинного обучения переживает качественный переход в методологиях моделирования среды. Традиционно обработка пространственных данных опиралась на сверточные нейросети (CNN), а временных последовательностей — на рекуррентные архитектуры (RNN) .

Сегодня их вытесняют графовые нейросети (Graph Neural Networks, GNN) и трансформеры (Transformers), представляющие собой частный случай графовых сетей с механизмом внимания .

Эти архитектуры предоставляют инженерам важные преимущества:

Моделирование семантических связей. Вместо обработки плоских пиксельных карт графовые модели работают напрямую с объектами, их свойствами и взаимосвязями в пространстве .
Эффективное масштабирование. Трансформеры демонстрируют высокую масштабируемость при обучении на сверхбольших объемах размеченных и неразмеченных данных .
Использование сверхбольших моделей (за рамками бортового компьютера). Хотя запуск гигантских моделей класса GPT-3 непосредственно на борту автомобиля невозможен из-за жестких ограничений по энергопотреблению и задержкам (latency) , Waymo активно использует их во внебортовых (off-board) системах .

Сверхбольшие нейросети применяются для полуавтоматической высокоточной разметки собранных в поездках данных, генерации реалистичного поведения агентов (пешеходов и других водителей) в симуляторе и самообучения моделей без участия человека (self-supervision) . Драго Ангелов категорически убежден: качество валидационных выборок и методология тестирования определяют успех беспилотных исследований в гораздо большей степени, нежели архитектурные тонкости самих нейросетей .

🤖 Робототехника будущего: чему беспилотники учат индустрию IT 44:18

По мнению руководителя исследований Waymo, разработка беспилотных автомобилей является самой сложной и комплексной задачей физической робототехники текущего десятилетия . Работа над ней заставляет инженеров переосмыслять привычные паттерны проектирования ПО.

В традиционных веб-сервисах требования к точности моделей машинного обучения гораздо мягче. В качестве примера Ангелов приводит рекомендательные алгоритмы или системы тегирования изображений :

«Если при аннотировании Google Photos система перепутает жирафа со штруделем — пользователи посмеются и забудут. Но в беспилотном вождении мы не можем идти на подобные компромиссы с безопасностью» .

Необходимость создания абсолютно надежных систем в условиях непредсказуемой физической реальности заставляет Waymo отказываться от идеологического догматизма . Ангелов считает несостоятельными заявления о том, что беспилотник должен управляться исключительно одной сквозной (end-to-end) нейросетью, обучаемой только на видеозаписях .

Практические ограничения заставляют создавать гибридные робототехнические комплексы, сочетающие глубокие нейросети с классической теорией управления и жесткими программными предохранителями. Наработанный в Waymo опыт проектирования таких систем безопасности, методик симуляционного тестирования и бесшовного слияния датчиков в будущем послужит готовым фундаментом для создания любых других коммерческих робототехнических платформ следующего поколения .