В новом выпуске подкаста Eye on AI ведущий Крейг Смит обсудил с руководителем направления искусственного интеллекта в компании Waymo Драго эволюцию технологий автономного вождения. В центре дискуссии — переход от изолированных нейросетей к единым мультимодальным трансформерам, значение пространственного мышления ИИ и создание открытых датасетов. Собеседники детально разобрали текущие масштабы бизнеса роботакси, подходы к безопасности на фоне инцидентов конкурентов, а также перспективы развития индустрии в ближайшее десятилетие.
🎓 От ImageNet к ИИ-стеку беспилотников: путь Драго в Waymo 1:05
Карьера Драго неразрывно связана с развитием технологий компьютерного зрения и глубокого обучения. Спикер отмечает, что его академический путь занял в общей сложности 10 лет, проведенных в Стэнфордском университете, где он защитил докторскую диссертацию (PhD) под руководством Дафны Коллер и активно сотрудничал с Себастьяном Труном.
В экосистеме Google Драго начинал как технический лидер направления 3D-зрения и оценки поз для проекта Google Street View, что позволило ему работать с огромными массивами данных, собиравшимися с различных платформ — от автомобилей и снегоходов до рюкзаков и лодок. Затем он вернулся к своим академическим истокам в области машинного обучения. Команда под его руководством совместно со специалистами из Google Brain совершила ряд прорывных открытий в проектировании архитектур больших нейросетей, что привело к победе в престижном соревновании по распознаванию образов ImageNet в 2014 году. Кроме того, эти наработки легли в основу серверной архитектуры глубокого семантического аннотирования для сервиса Google Photos, обеспечив работу функций умного поиска и автоматического формирования альбомов.
Оценив в 2015 году зрелость технологий глубокого обучения как достаточную для реализации автономного вождения, Драго вернулся в робототехнику. До прихода в Waymo летом 2018 года он на протяжении двух с половиной лет возглавлял команду восприятия (perception) в беспилотном стартапе Zoox, где выстраивал процессы трехмерного анализа сцен. По словам спикера, опыт работы со сквозным стеком робототехники — включая восприятие, планирование, прогнозирование поведения, симуляцию, картирование и локализацию — позволяет ему смотреть на беспилотную индустрию через кросс-функциональную призму машинного обучения.
📈 Коммерческий масштаб Waymo: миллионы миль и новая экспансия 8:29
На сегодняшний день коммерческие беспилотные перевозки Waymo вышли на стадию уверенного масштабирования в реальных городских условиях. Сервисы роботакси полноценно функционируют в Сан-Франциско и Финиксе, обеспечивая десятки тысяч поездок для пользователей еженедельно. В совокупности флот компании преодолел отметку в 1 миллион оплаченных поездок и наездил более 10 миллионов автономных миль.
Спикер приводит ключевые пространственные и географические параметры текущего бизнеса Waymo:
- Операционная зона в Финиксе в настоящее время примерно в пять раз превышает по площади зону покрытия в Сан-Франциско.
- Пересечение некоторых районов Финикса по обычным улицам без использования скоростных шоссе может занимать около часа, что делает освоение хайвеев приоритетной инженерной задачей.
- В ближайшие недели компания запускает коммерческие оплаченные поездки в Лос-Анджелесе, получив официальное разрешение от регуляторов.
- Параллельно началось тестирование полностью беспилотных поездок для сотрудников компании в Остине (Техас).
Драго напоминает, что история автономного движения Waymo длится уже 15 лет и включает знаковые вехи. Так, еще в 2015 году в Остине была осуществлена первая полностью беспилотная поездка по дорогам общего пользования, пассажиром которой стал незрячий Стив Махан. Официальный коммерческий запуск сервиса Waymo One состоялся в 2020 году в восточной части долины Финикса (район Чандлер). С тех пор стек технологий претерпел масштабную модернизацию, адаптируясь к сверхплотной урбанистической среде Сан-Франциско. По оценке гостя, компания полностью трансформировалась в «AI-first» предприятие, стремящееся максимизировать влияние машинного обучения во всех прикладных сферах.
🧠 Эволюция архитектуры: от разрозненных нейросетей к трансформерам 13:21
Современный технологический стек беспилотного автомобиля представляет собой гибридную, но стремительно консолидирующуюся систему. Отвечая на вопрос Крейга Смита о соотношении жестко запрограммированных алгоритмов и машинного обучения, Драго поясняет, что крупные нейросетевые модели сейчас лежат в основе всех ключевых узлов — от систем восприятия до планирования траекторий, предсказания поведения агентов и симуляции.
Исторически индустрия развивалась по пути изоляции задач, когда отдельные нейросети отвечали за узкие функции: детектирование трехмерных рамок (bounding boxes), семантическую сегментацию сцены или распознавание дорожных знаков. Однако архитектурная революция трансформеров радикально изменила свойства масштабирования моделей. Драго подчеркивает, что современные алгоритмы способны эффективно и качественно решать сотни и тысячи параллельных задач одновременно, что делает консолидацию моделей наиболее выгодным инженерным трендом.
При этом архитектура разделена по принципу размещения вычислительных мощностей:
- Бортовой компьютер автомобиля (on-board compute) выполняет весь цикл управления непосредственно в режиме реального времени и функционирует полностью автономно.
- Облачные дата-центры (cloud compute) принимают на себя задачи глобального тестирования, оценки качества обновлений и запуска масштабных симуляторов.
Спикер признает, что создание единой сквозной нейросети для управления автомобилем сопряжено с колоссальными инфраструктурными вызовами. На борту машины одновременно функционирует от одной до двух десятков камер, несколько лидаров и радаров. Подача такого огромного массива данных в единую модель требует обучения в несколько этапов и строгого контроля качества кода, поскольку система должна гарантированно соответствовать тысячам жестких требований безопасности.
🗺️ Спор подходов: «модели мира» против промежуточных представлений 22:50
Важнейшим архитектурным решением Waymo остается использование интерпретируемых промежуточных представлений данных. Традиционный подход компании заключается в построении так называемой модели «взгляда птицы» (Bird's Eye View, BEV). Система проецирует данные всех сенсоров на условную пространственную сетку вокруг автомобиля, агрегируя всю критически важную информацию.
Драго высказывает скепсис по поводу радикально отличающихся концепций «моделей мира» (world models), продвигаемых некоторыми конкурентами, например стартапом Wayve. По его мнению, утверждения об их принципиальной новизне во многом преувеличены маркетингом. В Waymo точно так же применяются предсказательные модели мира, способные прогнозировать развитие дорожной ситуации в ответ на планируемые маневры автомобиля. Разница кроется лишь в дизайне представлений: Waymo сознательно сохраняет промежуточные слои данных, поскольку эксперты могут легко инспектировать их, накладывать физические ограничения и внедрять жесткие защитные барьеры (guardrails), что критически важно для надежности.
Касаясь современных трендов генеративного ИИ и больших языковых моделей (LLM), спикер выделяет перспективность интеграции языковых эмбеддингов в робототехнику. По оценке Драго, такие репрезентации привносят в систему огромный объем накопленного человечеством «здравого смысла» (common sense) из интернета, упрощая взаимодействие машины с людьми. Тем не менее, для безопасного вождения критически важным остается точное пространственное мышление (spatial reasoning). Модели беспилотника обязаны безупречно выстраивать геометрию окружающего мира, оценивать траектории и реагировать на действия других участников движения за доли секунды, что отличает их от традиционных сервисных роботов.
📊 Waymo Open Dataset: преодоление академического дефицита данных 34:09
Инструментом масштабирования экспертизы и поддержки научного сообщества стал проект Waymo Open Dataset. Драго объясняет, что решение о его создании в 2018 году было продиктовано кризисом доступных данных в академической среде. Популярный в то время датасет KITTI, созданный в 2011–2012 годах, был слишком мал по объему. Маленькие наборы данных, как утверждает гость, искажают результаты научных конкурсов, вынуждая исследователей закладывать в архитектуры избыточные смещения или использовать методы банального переобучения (overfitting), неприменимые в реальном производстве беспилотников.
Сбор качественных данных для автономного транспорта — крайне дорогостоящий процесс, требующий калибровки множества датчиков и синхронизации систем позиционирования. В рамках инициативы Waymo открыла доступ к гигантскому массиву информации:
- Основу составляют Run-сегменты — 20-секундные непрерывные записи последовательностей данных с лидаров и камер.
- Изначально было выпущено около 2000 таких сегментов, собранных на улицах Сан-Франциско и Финикса в 2017–2018 годах.
- К настоящему моменту объем открытых данных расширен до 100 000 сегментов, включающих дорожные графы, трехмерные рамки объектов и сжатые эмбеддинги изображений.
На базе этого датасета компания ежегодно проводит глобальные технологические челленджи. Спикер анонсировал запуск соревнований 2024 года по четырем ключевым направлениям: 3D-семантическая сегментация, прогнозирование заполненности пространства (3D occupancy prediction), предсказание трехмерных потоков (3D flow prediction), а также прогнозирование траекторий движущихся агентов. Победители соревнований получат денежные призы и будут приглашены представить свои решения на престижной ИИ-конференции CVPR в июне.
Отвечая на вопрос о сетевой архитектуре флота, Драго уточнил, что автомобили не обмениваются сенсорными данными друг с другом в реальном времени, так как это потребовало бы колоссальной пропускной способности каналов связи — объем несжатых данных только одного сегмента приближается к терабайту. Вместо этого вся информация стекается в центральный репозиторий, где инженеры могут реконструировать дорожные сцены одновременно с ракурсов нескольких машин, повышая точность моделей.
🛡️ Безопасность на практике: уроки Cruise и критика подхода Tesla 45:35
Обсуждая инциденты в индустрии, в частности кризис и приостановку лицензии конкурента Cruise, Драго подчеркивает, что безопасность в беспилотных технологиях является непреложным приоритетом, а общественное доверие очень легко потерять. Waymo позиционирует свою стратегию как максимально взвешенную и поэтапную.
Для доказательства надежности компания опирается на строгую математическую статистику. По словам Драго, совместное исследование с крупной швейцарской страховой компанией, проанализировавшее 3,8 миллиона миль автономного пробега Waymo, показало следующие результаты:
- Количество страховых претензий, связанных с получением травм пассажирами или третьими лицами, снизилось до абсолютного нуля.
- Общее число заявлений о повреждении имущества сократилось на 76% по сравнению с показателями водителей-людей.
Спикер настаивает, что в обеспечении безопасности не существует одной идеальной нейросети-симулятора. Надежность достигается за счет синергии различных сенсорных модальностей. Наличие активных датчиков — лидаров и радаров — гарантирует, что даже если нейросеть, обрабатывающая видеопоток с камер, совершит ошибку в сложной оптической ситуации (например, из-за зеркального отражения на кузове грузовика), объект все равно будет зафиксирован альтернативными приборами.
Драго дает профессиональную оценку подходу компании Tesla к автономному вождению. Как утверждает эксперт, технология Tesla FSD по своей фундаментальной природе является продвинутым комплексом помощи водителю (Driver Assist), а не системой полноценного автопилота. Машинное обучение способно решать подавляющее большинство стандартных дорожных ситуаций, однако неизбежно пасует перед сверхредкими аномалиями (corner cases) «длинного хвоста» распределения данных. Чтобы выпустить на дороги настоящий беспилотный сервис без человека за рулем, необходимо спроектировать сложнейшую архитектуру резервирования и системных ограничений, к решению которой, по мнению гостя, Tesla в своей текущей концепции еще не приступила.
🔮 Будущее автономного транспорта: масштабирование и экономика флота 52:51
Развитие Waymo сейчас находится в мультипликативной фазе, когда объемы операционной деятельности и размеры покрываемых зон ежегодно увеличиваются в несколько раз. Драго объясняет, что в беспилотном бизнесе работает важнейший закон: масштаб порождает масштаб (scale begets scale). Если адаптация системы к первому городу требовала титанических усилий, то экспансия в каждый последующий мегаполис (из Сан-Франциско в Лос-Анджелес или Остин) дается кратно легче. Основная часть инженерных задач смещается из области написания кода в сферу финальной валидации и тестирования безопасности.
Говоря о долгосрочных горизонтах, Драго делится своим видением развития рынка:
- Внедрение беспилотных алгоритмов на скоростных междугородних магистралях США находится в активной фазе разработки.
- Технологический стек Waymo изначально проектируется как универсальный «водитель», способный в будущем адаптироваться под личные автомобили граждан, магистральные грузовики и иные форм-факторы робототехники.
- Полноценное повсеместное развертывание коммерческих беспилотных сетей в американских городах, по оптимистичному прогнозу гостя, займет существенно меньше десяти лет.
Текущий экономический профиль роботакси Waymo предлагает премиальный опыт уединенной поездки по цене стандартного тарифа в обычных агрегаторах вроде Uber. Спикер признает, что на данном этапе спрос существенно превышает физическое предложение доступных машин. Однако по мере оптимизации стоимости самих транспортных средств, совершенствования бортовых моделей ИИ и операционных процессов, себестоимость беспилотных поездок будет стремительно снижаться, что способно в будущем избавить городских жителей от необходимости владения личным автомобилем.