Драго Ангелов рассказал об архитектуре беспилотных автомобилей Waymo

The TWIML AI Podcast with Sam Charrington 3,9 тыс. 53 мин 5 мин 26.02.2021
Главное

Технологии автономного вождения постепенно переходят от стадии смелых экспериментов к коммерческой эксплуатации. В рамках подкаста «The TWIML AI Podcast» руководитель отдела исследований компании Waymo Драго Ангелов рассказал о внутренней архитектуре систем беспилотных автомобилей, вызовах масштабирования и поиске баланса между искусственным интеллектом и классической инженерией. Интервью позволяет заглянуть за кулисы разработки беспилотников пятого поколения и понять, как обучаются беспилотные машины.

🎓 Путь в профессию: десять лет сопротивления ИИ-эксперта 0:14

Драго Ангелов признается, что его карьера в сфере беспилотного транспорта началась далеко не сразу, несмотря на обилие возможностей. Во время обучения в докторантуре Стэнфордского университета он стал первым студентом известного профессора Дафны Коллер, который сфокусировался на машинном обучении для восприятия и компьютерного зрения. В то время у лаборатории Коллер не было собственных роботов, что привело к сотрудничеству с Себастьяном Труном, ставшим неофициальным соруководителем Ангелова. Несмотря на участие в подготовке команды к культовому технологическому конкурсу DARPA Grand Challenge, после выпуска Ангелов ушел в стартап, обойдя запуск первых беспилотных инициатив стороной.

Позже, в 2007–2008 годах, ученый работал в команде Google Street View, где руководил направлением оценки позиционирования и трехмерного компьютерного зрения. Когда в конце 2008 года Себастьян Трун возглавил секретный проект Google по созданию беспилотного автомобиля, многие коллеги Ангелова перешли туда, но сам он посчитал технологию слишком экспериментальной. Вместо этого он углубился в глубокое обучение и возглавил команду в Google Research, создавшую алгоритмы автоматической разметки и каталогизации для сервиса Google Фото. Лишь во второй половине 2015 года, когда глубокие нейросети доказали свою эффективность, Ангелов пришел к выводу, что трехмерное восприятие и прогнозирование в беспилотниках стали следующим технологическим фронтиром. Летом 2018 года он наконец присоединился к Waymo, чтобы с нуля создать и возглавить исследовательский отдел компании.

🚗 Три столпа автономии Waymo и масштабирование беспилотного сервиса 5:16

Исследовательская команда Waymo начиналась всего с шести человек, но быстро превратилась в горизонтальную структуру, обеспечивающую глубоким обучением все ключевые элементы системы: восприятие, прогнозирование, планирование и симуляцию. По словам Драго Ангелова, подход Waymo к автономии опирается на три фундаментальных столпа:

На момент проведения интервью беспилотная система Waymo находится уже в пятом поколении. Универсальный «водитель» (Waymo Driver) адаптирован как для легковых автомобилей, так и для магистральных грузовиков класса A, использующих схожие модели и датчики. Важнейшей вехой компании стал запуск полностью беспилотного сервиса Waymo One в Финиксе, где машины возят клиентов без подстраховки водителя-испытателя на территории в 50 квадратных миль, что сопоставимо с площадью Сан-Франциско. До пандемии COVID-19 компания выполняла от 1000 до 2000 поездок еженедельно, из которых лишь 5–10% были полностью автономными, но затем сервис перешел на 100% беспилотный режим. Наземный флот Waymo преодолел более 20 миллионов миль по дорогам общего пользования, однако главным рычагом масштабирования Ангелов называет симуляцию: в виртуальной среде машины «проехали» более 20 миллиардов миль, причем в любой момент времени в симуляторе одновременно генерируется движение 25 000 автомобилей.

📡 Дилемма сенсоров: почему Waymo выбирает синергию, а не только камеры 8:25

В индустрии беспилотного транспорта существуют разные философии: одни компании делают ставку исключительно на видеокамеры, однако Waymo придерживается стратегии мультисенсорного слияния (sensor fusion). На автомобилях пятого поколения установлена комбинация из лидаров, камер и радаров. Как объясняет Драго Ангелов, камера — это пассивный сенсор, подверженный колоссальной изменчивости внешней среды (дождь, туман, снег, смена дня и ночи), из-за чего системы ИИ могут совершать критические ошибки восприятия. Лидары и радары выступают в качестве активных датчиков, создавая надежный «множитель безопасности»: если камера пропускает объект из-за сложных условий освещения, активные сенсоры его подстрахуют.

Высокоточное трехмерное восприятие позволяет Waymo решать проблему «длинного хвоста» (long tail) — редких сценариев, которые ИИ никогда не видел при обучении. Гость привел в пример ситуации, когда на проезжей части оказываются люди, лежащие на скейтбордах, или из грузовиков выступают нестандартные трубы. Кроме того, качественные сенсоры позволяют системе обучаться не только на действиях собственного беспилотника, но и с высокой точностью реконструировать и моделировать поведение окружающих участников движения — пешеходов и других водителей.

Рассматривая архитектуру объединения данных от разных датчиков, Ангелов выделил два основных академических и практических подхода, отметив, что это постоянная тема для дискуссий в индустрии:

По мнению исследователя, идеальная промышленная архитектура беспилотника должна сочетать элементы обоих подходов, чтобы соблюсти баланс между контекстом и отказоустойчивостью.

🧠 Эволюция нейросетей: графовые модели, трансформеры и гибридный ИИ 42:32

Машинное обучение в автономном транспорте стремительно трансформируется. Драго Ангелов отмечает, что за последние несколько лет на смену традиционным свёрточным (CNN) и рекуррентным сетям пришли графовые нейросети (GNN) и трансформеры. Эти архитектуры позволяют работать напрямую с объектами и их взаимосвязями, обеспечивая ИИ мощным индуктивным смещением для понимания семантики и геометрии дорожной сцены. Более того, крупные нейросети, обученные на гигантских массивах данных, демонстрируют гораздо лучшую обобщающую способность, чем компактные модели.

Тем не менее, эксперт подчеркивает, что беспилотная индустрия не может слепо копировать тренды из сферы текстовых моделей. Если языковая модель уровня GPT-3 может позволить себе периодически генерировать глупости, то в беспилотном автомобиле цена ошибки — это человеческая жизнь. Из-за жестких ограничений по задержке сигнала (latency) и вычислительной мощности бортового компьютера, Waymo использует связку из сверхтяжелых «офлайн-моделей» для симуляции и генерации виртуальной среды и оптимизированных «онлайн-моделей» непосредственно на борту автомобиля.

Ангелов убежден, что на текущем этапе развития науки чистые end-to-end модели (когда нейросеть напрямую преобразует пиксели с камер в команды рулевого управления) неприменимы для безопасного вождения. Система Waymo представляет собой гибрид передового машинногольного обучения и экспертно спроектированных алгоритмов управления и подстраховки. Такой подход позволяет гарантировать предсказуемое и безопасное поведение машины даже в тех редких дорожных ситуациях, которые ИИ-компонент встречает впервые в своей практике.

💬 Цитаты

«В беспилотном автомобиле вы не можете пойти на компромисс. Если языковая модель уровня GPT-3 может позволить себе периодически генерировать глупости, то в нашей сфере цена ошибки — человеческая жизнь.»

Драго Ангелов 46:06

«Я не пурист и не считаю, что система должна быть полностью сквозной (end-to-end) или представлять собой одну модель машинного обучения. Существует множество факторов, которые приводят к созданию гибридной системы.»

Драго Ангелов 51:47
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Раннее слияние (Early Fusion)
Метод объединения данных от разных сенсоров (камер, лидаров, радаров) на уровне сырых сигналов перед подачей в единую нейросеть.
Позднее слияние (Late Fusion)
Метод, при котором данные каждого типа сенсоров обрабатываются независимыми моделями, а их результаты объединяются на финальном этапе.
Длинный хвост (Long Tail)
Редкие, нестандартные или уникальные дорожные ситуации, которые редко встречаются в обучающей выборке, но критически важны для безопасности.
Трансформер (Transformer)
Архитектура нейросетей, основанная на механизме внимания, позволяющая эффективно моделировать взаимосвязи между объектами в сцене.
📊 Цифры
🗓 Хронология
  1. 2007-2008 Драго Ангелов работает в Google Street View над технологиями 3D-реконструкции и позиционирования.
  2. 2008-2009 Себастьян Трун запускает проект беспилотного автомобиля в Google (будущий Waymo).
  3. 2013 Ангелов руководит разработкой нейросетевых бэкендов для распознавания изображений в Google Фото.
  4. 2015 Ученый принимает решение полностью перейти в индустрию автономного вождения.
  5. 2018 Драго Ангелов присоединяется к Waymo для создания и масштабирования исследовательского отдела.
  6. Октябрь 2020 Сервис Waymo One в Финиксе переходит на 100% беспилотный режим работы без водителей-испытателей.
⚖️ Другая сторона
Искусственный интеллект Waymo Драго Ангелов Sensor fusion Transformers Машинное обучение