# Драго Ангелов рассказал об архитектуре беспилотных автомобилей Waymo

Источник: https://www.youtube.com/watch?v=W3H164oB3XQ
Канал: The TWIML AI Podcast with Sam Charrington
Опубликовано: 26.02.2021

---

Технологии автономного вождения постепенно переходят от стадии смелых экспериментов к коммерческой эксплуатации. В рамках подкаста «The TWIML AI Podcast» руководитель отдела исследований компании Waymo Драго Ангелов рассказал о внутренней архитектуре систем беспилотных автомобилей, вызовах масштабирования и поиске баланса между искусственным интеллектом и классической инженерией. Интервью позволяет заглянуть за кулисы разработки беспилотников пятого поколения и понять, как обучаются беспилотные машины.

## 🎓 Путь в профессию: десять лет сопротивления ИИ-эксперта
[[JUMP:0:14]]

Драго Ангелов признается, что его карьера в сфере беспилотного транспорта началась далеко не сразу, несмотря на обилие возможностей. Во время обучения в докторантуре Стэнфордского университета он стал первым студентом известного профессора Дафны Коллер, который сфокусировался на машинном обучении для восприятия и компьютерного зрения. В то время у лаборатории Коллер не было собственных роботов, что привело к сотрудничеству с Себастьяном Труном, ставшим неофициальным соруководителем Ангелова. Несмотря на участие в подготовке команды к культовому технологическому конкурсу DARPA Grand Challenge, после выпуска Ангелов ушел в стартап, обойдя запуск первых беспилотных инициатив стороной.

Позже, в 2007–2008 годах, ученый работал в команде Google Street View, где руководил направлением оценки позиционирования и трехмерного компьютерного зрения. Когда в конце 2008 года Себастьян Трун возглавил секретный проект Google по созданию беспилотного автомобиля, многие коллеги Ангелова перешли туда, но сам он посчитал технологию слишком экспериментальной. Вместо этого он углубился в глубокое обучение и возглавил команду в Google Research, создавшую алгоритмы автоматической разметки и каталогизации для сервиса Google Фото. Лишь во второй половине 2015 года, когда глубокие нейросети доказали свою эффективность, Ангелов пришел к выводу, что трехмерное восприятие и прогнозирование в беспилотниках стали следующим технологическим фронтиром. Летом 2018 года он наконец присоединился к Waymo, чтобы с нуля создать и возглавить исследовательский отдел компании.

## 🚗 Три столпа автономии Waymo и масштабирование беспилотного сервиса
[[JUMP:5:16]]

Исследовательская команда Waymo начиналась всего с шести человек, но быстро превратилась в горизонтальную структуру, обеспечивающую глубоким обучением все ключевые элементы системы: восприятие, прогнозирование, планирование и симуляцию. По словам Драго Ангелова, подход Waymo к автономии опирается на три фундаментальных столпа:

* **Аппаратная платформа:** Комплексная интеграция датчиков, вычислительных мощностей и резервных систем управления.
* **Программное обеспечение и симуляция:** Масштабируемая программная среда, позволяющая проводить жесткую оценку и тестирование до выезда на реальные дороги.
* **Коммерческий сервис:** Реальный опыт эксплуатации беспилотного такси, сбор отзывов клиентов и взаимодействие с правоохранительными органами.

На момент проведения интервью беспилотная система Waymo находится уже в пятом поколении. Универсальный «водитель» (Waymo Driver) адаптирован как для легковых автомобилей, так и для магистральных грузовиков класса A, использующих схожие модели и датчики. Важнейшей вехой компании стал запуск полностью беспилотного сервиса Waymo One в Финиксе, где машины возят клиентов без подстраховки водителя-испытателя на территории в 50 квадратных миль, что сопоставимо с площадью Сан-Франциско. До пандемии COVID-19 компания выполняла от 1000 до 2000 поездок еженедельно, из которых лишь 5–10% были полностью автономными, но затем сервис перешел на 100% беспилотный режим. Наземный флот Waymo преодолел более 20 миллионов миль по дорогам общего пользования, однако главным рычагом масштабирования Ангелов называет симуляцию: в виртуальной среде машины «проехали» более 20 миллиардов миль, причем в любой момент времени в симуляторе одновременно генерируется движение 25 000 автомобилей.

## 📡 Дилемма сенсоров: почему Waymo выбирает синергию, а не только камеры
[[JUMP:8:25]]

В индустрии беспилотного транспорта существуют разные философии: одни компании делают ставку исключительно на видеокамеры, однако Waymo придерживается стратегии мультисенсорного слияния (sensor fusion). На автомобилях пятого поколения установлена комбинация из лидаров, камер и радаров. Как объясняет Драго Ангелов, камера — это пассивный сенсор, подверженный колоссальной изменчивости внешней среды (дождь, туман, снег, смена дня и ночи), из-за чего системы ИИ могут совершать критические ошибки восприятия. Лидары и радары выступают в качестве активных датчиков, создавая надежный «множитель безопасности»: если камера пропускает объект из-за сложных условий освещения, активные сенсоры его подстрахуют.

Высокоточное трехмерное восприятие позволяет Waymo решать проблему «длинного хвоста» (long tail) — редких сценариев, которые ИИ никогда не видел при обучении. Гость привел в пример ситуации, когда на проезжей части оказываются люди, лежащие на скейтбордах, или из грузовиков выступают нестандартные трубы. Кроме того, качественные сенсоры позволяют системе обучаться не только на действиях собственного беспилотника, но и с высокой точностью реконструировать и моделировать поведение окружающих участников движения — пешеходов и других водителей.

Рассматривая архитектуру объединения данных от разных датчиков, Ангелов выделил два основных академических и практических подхода, отметив, что это постоянная тема для дискуссий в индустрии:

* **Раннее слияние (Early Fusion):** Все необработанные сигналы со всех датчиков объединяются и подаются в единую глубокую нейросеть. Это дает максимальную точность в академических тестах благодаря богатому контексту, но несет риск коррелированной ошибки, когда модель принимает неверное решение сразу по всем модальностям.
* **Позднее слияние (Late Fusion):** Данные с радара, лидара и камер обрабатываются тремя независимыми моделями, а их выводы объединяются на более позднем этапе. Это гарантирует независимость ошибок: если одна модель откажет, другие подстрахуют систему.

По мнению исследователя, идеальная промышленная архитектура беспилотника должна сочетать элементы обоих подходов, чтобы соблюсти баланс между контекстом и отказоустойчивостью.

## 🧠 Эволюция нейросетей: графовые модели, трансформеры и гибридный ИИ
[[JUMP:42:32]]

Машинное обучение в автономном транспорте стремительно трансформируется. Драго Ангелов отмечает, что за последние несколько лет на смену традиционным свёрточным (CNN) и рекуррентным сетям пришли графовые нейросети (GNN) и трансформеры. Эти архитектуры позволяют работать напрямую с объектами и их взаимосвязями, обеспечивая ИИ мощным индуктивным смещением для понимания семантики и геометрии дорожной сцены. Более того, крупные нейросети, обученные на гигантских массивах данных, демонстрируют гораздо лучшую обобщающую способность, чем компактные модели.

Тем не менее, эксперт подчеркивает, что беспилотная индустрия не может слепо копировать тренды из сферы текстовых моделей. Если языковая модель уровня GPT-3 может позволить себе периодически генерировать глупости, то в беспилотном автомобиле цена ошибки — это человеческая жизнь. Из-за жестких ограничений по задержке сигнала (latency) и вычислительной мощности бортового компьютера, Waymo использует связку из сверхтяжелых «офлайн-моделей» для симуляции и генерации виртуальной среды и оптимизированных «онлайн-моделей» непосредственно на борту автомобиля.

Ангелов убежден, что на текущем этапе развития науки чистые end-to-end модели (когда нейросеть напрямую преобразует пиксели с камер в команды рулевого управления) неприменимы для безопасного вождения. Система Waymo представляет собой гибрид передового машинногольного обучения и экспертно спроектированных алгоритмов управления и подстраховки. Такой подход позволяет гарантировать предсказуемое и безопасное поведение машины даже в тех редких дорожных ситуациях, которые ИИ-компонент встречает впервые в своей практике.