Драго Ангелов на подкасте The TWIML AI Podcast: системный дизайн автономного транспорта и симуляция 20 млрд миль

The TWIML AI Podcast with Sam Charrington 2,9 тыс. 50 мин 7 мин 08.02.2021
Главное

В рамках подкаста The TWIML AI Podcast Сэм Черрингтон побеседовал с выдающимся ученым и руководителем отдела исследований Waymo Драго Ангеловым. Эксперт подробно описал эволюцию систем беспилотного вождения, объяснил, почему гибридный подход превосходит чисто нейросетевой, и рассказал о роли активных сенсоров в преодолении «длинного хвоста» редких дорожных ситуаций.

🎓 От теории к практике: карьерный путь Драго Ангелова 2:12

Драго Ангелов позиционирует себя как специалиста по машинному обучению и компьютерному зрению . Свою научную карьеру он начинал в Стэнфордском университете под руководством известного профессора Дафни Коллер. В начале 2000-х годов исследовательская группа Коллер занималась широким спектром тем — от обработки естественного языка и теории игр до планирования и обучения с подкреплением . Однако именно Ангелов стал ее первым аспирантом, который сфокусировался на применении машинного обучения для задач восприятия (perception) .

Поскольку для исследований в области компьютерного зрения требовались физические носители, научная группа начала сотрудничать с Себастьяном Труном, известным робототехником, который перешел в Стэнфорд как раз в период обучения Ангелова . Себастьян Трун стал неофициальным соруководителем молодого ученого, благодаря чему тот погрузился в практические задачи робототехники. В этот же период в Стэнфорде формировалась команда для участия в технологических гонках роботов DARPA Grand Challenge .

После окончания аспирантуры Драго Ангелов выбрал работу в стартапе, временно отложив тему беспилотных машин. Позже, в 2007 году, он перешел в Google, где возглавил команду технологического лидерства (Tech Lead) по оценке положения (pose estimation) и 3D-реконструкции в проекте Google Street View . Команда разрабатывала инновационные на тот момент функции, включая так называемый «панкейк» (pancake) — инструмент, позволяющий пользователям плавно масштабировать изображение улиц вверх и вниз с восстановлением трехмерной геометрии окружения .

Когда в конце 2008 — начале 2009 года Себастьян Трун запустил в Google секретный проект по разработке беспилотного автомобиля, многие коллеги Ангелова перешли туда. Сам ученый признается, что дважды отказывался от аналогичных предложений :

Лишь во второй половине 2015 года исследователь пришел к выводу, что технологии глубокого обучения созрели для решения задач трехмерного восприятия и прогнозирования поведения объектов в реальном времени. С этого момента он полностью посвятил себя индустрии автономного транспорта .

🚗 Архитектура Waymo: пять поколений беспилотного «драйвера» 9:10

Драго Ангелов присоединился к Waymo летом 2018 года с целью создания и масштабирования специализированного исследовательского подразделения . На тот момент компания была сфокусирована преимущественно на производстве и выпуске готового стека технологий . Исследовательская команда начиналась всего с шести человек, но быстро превратилась в горизонтальную структуру, обслуживающую ключевые компоненты автономного вождения: восприятие, прогнозирование движения (prediction), планирование траектории (planning) и симуляцию .

В основе инженерной философии Waymo лежат три фундаментальных столпа: аппаратное обеспечение (включая автомобили и сенсоры), бортовое программное обеспечение и методы валидации безопасности . Ключевые аспекты этой архитектуры включают в себя:

  1. Пятое поколение аппаратной платформы. Компания использует зрелую систему датчиков и вычислительных мощностей с дублированием контуров управления и торможения .
  2. Мультисенсорный стек. Бортовой комплекс сочетает активные датчики (лидары и радары собственного производства) с пассивными (камеры) . Ангелов подчеркивает, что эти технологии дополняют друг друга.
  3. Единый «драйвер» для разных платформ. Одно и то же ядро программных модулей управляет как легковыми беспилотными такси, так и тяжелыми грузовиками класса A (Class A trucks) на автомагистралях, адаптируясь под габариты и динамику каждого типа машин .

По словам гостя, Waymo обладает подтвержденным опытом безопасного вывода водителя из-за руля . С 2017 года компания тестировала полностью беспилотный режим в Фениксе, штат Аризона, сначала в ограниченном режиме. До пандемии COVID-19 сервис выполнял от 1000 до 2000 поездок еженедельно, из которых 5–10% проходили в полностью автономном режиме . Начиная с осени 2020 года Waymo перевела коммерческий сервис в Фениксе на 100% беспилотное обслуживание на площади в 50 квадратных миль, что сопоставимо с размером Сан-Франциско .

⚡ Симуляция и масштабирование: 20 миллиардов виртуальных миль 14:22

Одной из главных задач своей команды Драго Ангелов называет масштабируемость системы на десятки городов мира без необходимости привлечения огромного штата инженеров для ручной настройки алгоритмов под каждый новый перекресток .

В процессе валидации беспилотников компания использует комбинацию двух подходов:

Как объясняет эксперт, масштабирование на новые города сдерживается не только регуляторными или техническими барьерами, но и необходимостью минимизировать участие экспертов в ручной доработке кода движения . Для этого Waymo создает гибридную систему. Она сочетает алгоритмы машинного обучения с экспертно спроектированными правилами и предохранителями (fallbacks) . Если нейросеть сталкивается с абсолютно незнакомым сценарием, управление перехватывает классический отказоустойчивый алгоритм, гарантирующий безопасное поведение машины .

📡 Сенсорное слияние: ранняя, поздняя и гибридная интеграция данных 27:32

Важнейшей задачей систем восприятия является обеспечение надежности в экстремально редких ситуациях («длинный хвост» распределения событий) . По мнению Ангелова, подход с использованием исключительно камер имеет существенные ограничения. Камера — это пассивный сенсор. Обработка визуального сигнала сильно зависит от освещения, погодных условий (туман, дождь, снегопад) и визуального разнообразия сцен .

Использование активных датчиков (лидаров и радаров) дает критически важный резерв безопасности: даже если нейросеть не распознает на изображении с камеры нестандартный объект, активный сенсор физически зафиксирует препятствие по отраженному сигналу .

Ангелов выделяет три основных метода слияния данных от разных датчиков:

Эксперт отмечает, что на физическом уровне происходит сближение типов датчиков: лидары с каждым годом становятся дешевле, а их разрешение растет, приближая их к камерам . В то же время алгоритмы монокулярной оценки глубины по видеокадрам совершенствуются настолько быстро, что пассивные камеры начинают генерировать плотные карты глубины, сопоставимые по качеству с лидарными облаками точек .

🧠 Эволюция ИИ-архитектур: от сверточных сетей к графам и трансформерам 40:26

В последние годы индустрия машинного обучения переживает качественный переход в методологиях моделирования среды. Традиционно обработка пространственных данных опиралась на сверточные нейросети (CNN), а временных последовательностей — на рекуррентные архитектуры (RNN) .

Сегодня их вытесняют графовые нейросети (Graph Neural Networks, GNN) и трансформеры (Transformers), представляющие собой частный случай графовых сетей с механизмом внимания .

Эти архитектуры предоставляют инженерам важные преимущества:

Сверхбольшие нейросети применяются для полуавтоматической высокоточной разметки собранных в поездках данных, генерации реалистичного поведения агентов (пешеходов и других водителей) в симуляторе и самообучения моделей без участия человека (self-supervision) . Драго Ангелов категорически убежден: качество валидационных выборок и методология тестирования определяют успех беспилотных исследований в гораздо большей степени, нежели архитектурные тонкости самих нейросетей .

🤖 Робототехника будущего: чему беспилотники учат индустрию IT 44:18

По мнению руководителя исследований Waymo, разработка беспилотных автомобилей является самой сложной и комплексной задачей физической робототехники текущего десятилетия . Работа над ней заставляет инженеров переосмыслять привычные паттерны проектирования ПО.

В традиционных веб-сервисах требования к точности моделей машинного обучения гораздо мягче. В качестве примера Ангелов приводит рекомендательные алгоритмы или системы тегирования изображений :

«Если при аннотировании Google Photos система перепутает жирафа со штруделем — пользователи посмеются и забудут. Но в беспилотном вождении мы не можем идти на подобные компромиссы с безопасностью» .

Необходимость создания абсолютно надежных систем в условиях непредсказуемой физической реальности заставляет Waymo отказываться от идеологического догматизма . Ангелов считает несостоятельными заявления о том, что беспилотник должен управляться исключительно одной сквозной (end-to-end) нейросетью, обучаемой только на видеозаписях .

Практические ограничения заставляют создавать гибридные робототехнические комплексы, сочетающие глубокие нейросети с классической теорией управления и жесткими программными предохранителями. Наработанный в Waymo опыт проектирования таких систем безопасности, методик симуляционного тестирования и бесшовного слияния датчиков в будущем послужит готовым фундаментом для создания любых других коммерческих робототехнических платформ следующего поколения .

💬 Цитаты

«В беспилотном вождении нельзя идти на компромиссы. Если при аннотировании Google Photos система перепутает жирафа со штруделем — это нормально. В беспилотниках это недопустимо.»

Драго Ангелов 48:11

«Данные определяют ход исследований больше, чем сами модели.»

Драго Ангелов 40:14
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Early Fusion (раннее слияние)
Метод интеграции данных от нескольких датчиков, при котором необработанные сигналы объединяются перед подачей в единую нейросеть.
Late Fusion (позднее слияние)
Схема обработки данных, когда каждый тип датчика анализируется изолированной моделью, а их выводы объединяются в финальной точке.
Active Sensors (активные сенсоры)
Приборы (радары, лидары), которые излучают собственную энергию (световые или радиоволны) для сканирования расстояния до объектов.
Transformers (трансформеры)
Нейросетевая архитектура, основанная на механизме внутреннего внимания (self-attention), эффективно моделирующая связи между объектами среды.
📊 Цифры
🗓 Хронология
  1. 2007–2008 годы Драго Ангелов руководит разработкой позиционирования и 3D-реконструкции в проекте Google Street View.
  2. 2008–2009 годы Себастьян Трун запускает проект беспилотного автомобиля в Google; Ангелов отказывается от приглашения войти в команду.
  3. 2013 год Запуск сервиса Google Photos, использующего глубокое обучение для классификации фото от команды Ангелова.
  4. 2015 год Драго Ангелов принимает решение полностью перейти в индустрию автономного вождения на фоне успехов глубокого обучения.
  5. Лето 2018 года Ученый присоединяется к Waymo и начинает формировать специализированное R&D-подразделение.
  6. Октябрь 2020 года Waymo переводит коммерческий сервис беспилотных такси в Фениксе на 100% автономный режим без страхующих водителей.
⚖️ Другая сторона
Искусственный интеллект Waymo Драго Ангелов беспилотные автомобили трансформеры сенсорное слияние