# Драго Ангелов на подкасте The TWIML AI Podcast: системный дизайн автономного транспорта и симуляция 20 млрд миль

Источник: https://www.youtube.com/watch?v=qMfEXg2A-M4
Канал: The TWIML AI Podcast with Sam Charrington
Опубликовано: 08.02.2021

---

В рамках подкаста The TWIML AI Podcast Сэм Черрингтон побеседовал с выдающимся ученым и руководителем отдела исследований Waymo Драго Ангеловым. Эксперт подробно описал эволюцию систем беспилотного вождения, объяснил, почему гибридный подход превосходит чисто нейросетевой, и рассказал о роли активных сенсоров в преодолении «длинного хвоста» редких дорожных ситуаций.

## 🎓 От теории к практике: карьерный путь Драго Ангелова
[[JUMP:02:12]]

Драго Ангелов позиционирует себя как специалиста по машинному обучению и компьютерному зрению [02:24]. Свою научную карьеру он начинал в Стэнфордском университете под руководством известного профессора Дафни Коллер. В начале 2000-х годов исследовательская группа Коллер занималась широким спектром тем — от обработки естественного языка и теории игр до планирования и обучения с подкреплением [03:18]. Однако именно Ангелов стал ее первым аспирантом, который сфокусировался на применении машинного обучения для задач восприятия (perception) [02:38].

Поскольку для исследований в области компьютерного зрения требовались физические носители, научная группа начала сотрудничать с Себастьяном Труном, известным робототехником, который перешел в Стэнфорд как раз в период обучения Ангелова [03:32]. Себастьян Трун стал неофициальным соруководителем молодого ученого, благодаря чему тот погрузился в практические задачи робототехники. В этот же период в Стэнфорде формировалась команда для участия в технологических гонках роботов DARPA Grand Challenge [03:45].

После окончания аспирантуры Драго Ангелов выбрал работу в стартапе, временно отложив тему беспилотных машин. Позже, в 2007 году, он перешел в Google, где возглавил команду технологического лидерства (Tech Lead) по оценке положения (pose estimation) и 3D-реконструкции в проекте Google Street View [04:11]. Команда разрабатывала инновационные на тот момент функции, включая так называемый «панкейк» (pancake) — инструмент, позволяющий пользователям плавно масштабировать изображение улиц вверх и вниз с восстановлением трехмерной геометрии окружения [04:24].

Когда в конце 2008 — начале 2009 года Себастьян Трун запустил в Google секретный проект по разработке беспилотного автомобиля, многие коллеги Ангелова перешли туда. Сам ученый признается, что дважды отказывался от аналогичных предложений [04:50]:

*   В 2009 году проект беспилотника казался ему слишком ранним и экспериментальным [05:02]. Вместо этого он сосредоточился на глубоком обучении и возглавил исследовательскую команду Google Research, которая создала нейросетевую серверную архитектуру для распознавания и каталогизации изображений в сервисе Google Photos, запущенном в 2013 году [05:15].
*   В 2013 году, на фоне запуска Google Photos, команда беспилотного автомобиля снова пригласила его к сотрудничеству, но Ангелов вновь ответил отказом [05:29].

Лишь во второй половине 2015 года исследователь пришел к выводу, что технологии глубокого обучения созрели для решения задач трехмерного восприятия и прогнозирования поведения объектов в реальном времени. С этого момента он полностью посвятил себя индустрии автономного транспорта [05:41].

## 🚗 Архитектура Waymo: пять поколений беспилотного «драйвера»
[[JUMP:09:10]]

Драго Ангелов присоединился к Waymo летом 2018 года с целью создания и масштабирования специализированного исследовательского подразделения [06:20]. На тот момент компания была сфокусирована преимущественно на производстве и выпуске готового стека технологий [06:34]. Исследовательская команда начиналась всего с шести человек, но быстро превратилась в горизонтальную структуру, обслуживающую ключевые компоненты автономного вождения: восприятие, прогнозирование движения (prediction), планирование траектории (planning) и симуляцию [08:05].

В основе инженерной философии Waymo лежат три фундаментальных столпа: аппаратное обеспечение (включая автомобили и сенсоры), бортовое программное обеспечение и методы валидации безопасности [10:02]. Ключевые аспекты этой архитектуры включают в себя:

1.  **Пятое поколение аппаратной платформы.** Компания использует зрелую систему датчиков и вычислительных мощностей с дублированием контуров управления и торможения [10:14].
2.  **Мультисенсорный стек.** Бортовой комплекс сочетает активные датчики (лидары и радары собственного производства) с пассивными (камеры) [10:40]. Ангелов подчеркивает, что эти технологии дополняют друг друга.
3.  **Единый «драйвер» для разных платформ.** Одно и то же ядро программных модулей управляет как легковыми беспилотными такси, так и тяжелыми грузовиками класса A (Class A trucks) на автомагистралях, адаптируясь под габариты и динамику каждого типа машин [11:07].

По словам гостя, Waymo обладает подтвержденным опытом безопасного вывода водителя из-за руля [12:36]. С 2017 года компания тестировала полностью беспилотный режим в Фениксе, штат Аризона, сначала в ограниченном режиме. До пандемии COVID-19 сервис выполнял от 1000 до 2000 поездок еженедельно, из которых 5–10% проходили в полностью автономном режиме [13:28]. Начиная с осени 2020 года Waymo перевела коммерческий сервис в Фениксе на 100% беспилотное обслуживание на площади в 50 квадратных миль, что сопоставимо с размером Сан-Франциско [07:13].

## ⚡ Симуляция и масштабирование: 20 миллиардов виртуальных миль
[[JUMP:14:22]]

Одной из главных задач своей команды Драго Ангелов называет масштабируемость системы на десятки городов мира без необходимости привлечения огромного штата инженеров для ручной настройки алгоритмов под каждый новый перекресток [07:38]. 

В процессе валидации беспилотников компания использует комбинацию двух подходов:

*   **Натурные испытания.** Автомобили Waymo проехали более 20 миллионов миль по реальным общественным дорогам, накапливая бесценный опыт под контролем водителей-испытателей [14:49].
*   **Виртуальная симуляция.** В виртуальной среде автомобили компании преодолели уже более 20 миллиардов миль [15:02]. В каждый момент времени в симуляторе одновременно «двигается» эквивалент флота из 25 000 машин [15:15].

Как объясняет эксперт, масштабирование на новые города сдерживается не только регуляторными или техническими барьерами, но и необходимостью минимизировать участие экспертов в ручной доработке кода движения [16:58]. Для этого Waymo создает гибридную систему. Она сочетает алгоритмы машинного обучения с экспертно спроектированными правилами и предохранителями (fallbacks) [17:50]. Если нейросеть сталкивается с абсолютно незнакомым сценарием, управление перехватывает классический отказоустойчивый алгоритм, гарантирующий безопасное поведение машины [18:02].

## 📡 Сенсорное слияние: ранняя, поздняя и гибридная интеграция данных
[[JUMP:27:32]]

Важнейшей задачей систем восприятия является обеспечение надежности в экстремально редких ситуациях («длинный хвост» распределения событий) [19:09]. По мнению Ангелова, подход с использованием исключительно камер имеет существенные ограничения. Камера — это пассивный сенсор. Обработка визуального сигнала сильно зависит от освещения, погодных условий (туман, дождь, снегопад) и визуального разнообразия сцен [19:36].

Использование активных датчиков (лидаров и радаров) дает критически важный резерв безопасности: даже если нейросеть не распознает на изображении с камеры нестандартный объект, активный сенсор физически зафиксирует препятствие по отраженному сигналу [20:15]. 

Ангелов выделяет три основных метода слияния данных от разных датчиков:

*   **Раннее слияние (Early Fusion).** Сырые сигналы со всех сенсоров объединяются в один поток и передаются в единую глубокую нейросеть, на выходе которой получаются трехмерные рамки (bounding boxes) обнаруженных объектов [28:10]. Этот подход лидирует в академических тестах, но несет в себе риск коррелированной ошибки, когда из-за сбоя в общей модели игнорируются сигналы всех датчиков сразу [30:16].
*   **Позднее слияние (Late Fusion).** Сигналы с камер, лидаров и радаров обрабатываются независимыми нейросетями [28:23]. Их выводы объединяются на финальной стадии трекинга. Это гарантирует независимость ошибок: если сбой происходит в зрительной модели, радарная модель все равно продублирует обнаружение [29:13]. Минус подхода — потеря контекста. Например, низкоразрешающий радар намного легче интерпретировать, если у алгоритма есть контекст с высокодетализированной камеры [29:38].
*   **Гибридное слияние (Mixed Fusion).** Промежуточный вариант, который сочетает в себе элементы раннего обмена контекстом и сохраняет независимость контуров принятия решений для исключения общих сбоев [28:36].

Эксперт отмечает, что на физическом уровне происходит сближение типов датчиков: лидары с каждым годом становятся дешевле, а их разрешение растет, приближая их к камерам [32:27]. В то же время алгоритмы монокулярной оценки глубины по видеокадрам совершенствуются настолько быстро, что пассивные камеры начинают генерировать плотные карты глубины, сопоставимые по качеству с лидарными облаками точек [33:34].

## 🧠 Эволюция ИИ-архитектур: от сверточных сетей к графам и трансформерам
[[JUMP:40:26]]

В последние годы индустрия машинного обучения переживает качественный переход в методологиях моделирования среды. Традиционно обработка пространственных данных опиралась на сверточные нейросети (CNN), а временных последовательностей — на рекуррентные архитектуры (RNN) [40:40]. 

Сегодня их вытесняют графовые нейросети (Graph Neural Networks, GNN) и трансформеры (Transformers), представляющие собой частный случай графовых сетей с механизмом внимания [41:05]. 

Эти архитектуры предоставляют инженерам важные преимущества:

*   **Моделирование семантических связей.** Вместо обработки плоских пиксельных карт графовые модели работают напрямую с объектами, их свойствами и взаимосвязями в пространстве [41:18].
*   **Эффективное масштабирование.** Трансформеры демонстрируют высокую масштабируемость при обучении на сверхбольших объемах размеченных и неразмеченных данных [41:31].
*   **Использование сверхбольших моделей (за рамками бортового компьютера).** Хотя запуск гигантских моделей класса GPT-3 непосредственно на борту автомобиля невозможен из-за жестких ограничений по энергопотреблению и задержкам (latency) [43:00], Waymo активно использует их во внебортовых (off-board) системах [43:14].

Сверхбольшие нейросети применяются для полуавтоматической высокоточной разметки собранных в поездках данных, генерации реалистичного поведения агентов (пешеходов и других водителей) в симуляторе и самообучения моделей без участия человека (self-supervision) [24:33]. Драго Ангелов категорически убежден: качество валидационных выборок и методология тестирования определяют успех беспилотных исследований в гораздо большей степени, нежели архитектурные тонкости самих нейросетей [40:14].

## 🤖 Робототехника будущего: чему беспилотники учат индустрию IT
[[JUMP:44:18]]

По мнению руководителя исследований Waymo, разработка беспилотных автомобилей является самой сложной и комплексной задачей физической робототехники текущего десятилетия [46:27]. Работа над ней заставляет инженеров переосмыслять привычные паттерны проектирования ПО. 

В традиционных веб-сервисах требования к точности моделей машинного обучения гораздо мягче. В качестве примера Ангелов приводит рекомендательные алгоритмы или системы тегирования изображений [48:11]:

> «Если при аннотировании Google Photos система перепутает жирафа со штруделем — пользователи посмеются и забудут. Но в беспилотном вождении мы не можем идти на подобные компромиссы с безопасностью» [48:11].

Необходимость создания абсолютно надежных систем в условиях непредсказуемой физической реальности заставляет Waymo отказываться от идеологического догматизма [48:36]. Ангелов считает несостоятельными заявления о том, что беспилотник должен управляться исключительно одной сквозной (end-to-end) нейросетью, обучаемой только на видеозаписях [48:50]. 

Практические ограничения заставляют создавать гибридные робототехнические комплексы, сочетающие глубокие нейросети с классической теорией управления и жесткими программными предохранителями. Наработанный в Waymo опыт проектирования таких систем безопасности, методик симуляционного тестирования и бесшовного слияния датчиков в будущем послужит готовым фундаментом для создания любых других коммерческих робототехнических платформ следующего поколения [46:52].