Как Waymo обучает беспилотные автомобили с помощью генеративного ИИ

a16z (Andreessen Horowitz) 5,6 тыс. 36 мин 10 мин 05.08.2024
Главное

В рамках серии встреч «AI Revolution», организованной венчурным фондом Andreessen Horowitz (a16z), генеральные партнеры Сара Ванг и Дэвид Джордж обсудили будущее автономного транспорта с соисполнительным директором компании Waymo Дмитрием Долговым. В центре дискуссии — эволюция технологий беспилотного вождения, интеграция современного генеративного ИИ в существующую архитектуру робомобилей и преодоление барьера «последней мили» для достижения полной автономности. Рассматривая этот сектор, фонд a16z формулирует свой инвестиционный тезис: автономное вождение представляет собой наиболее мощное и сложное воплощение физического (embodied) искусственного интеллекта в реальном мире, способное кардинально трансформировать глобальный рынок логистики и пассажирских перевозок через построение масштабируемых сетей роботизированного транспорта.

🚗 Исторические корни: от DARPA к Google и Waymo 1:21

Дмитрий Долгов начал свой путь в индустрии автономного транспорта во время постдокторантуры в Стэнфордском университете. Этот период совпал с проведением знаменитых соревнований DARPA Grand Challenge, организованных Агентством передовых оборонных исследовательских проектов США с целью стимулирования инноваций в сфере беспилотного вождения. По воспоминаниям Долгова, ключевым для него стал 2007 год, когда он принял участие в DARPA Urban Challenge. Соревнование проходило на заброшенной военно-воздушной базе, где был воссоздан искусственный город с автономными машинами и профессиональными водителями-людьми. Этот опыт Долгов называет судьбоносным моментом, перевернувшим его представление о технологиях.

Аппаратное и программное обеспечение образца 2007 года на верхнем уровне напоминало современные системы, однако архитектурно сильно отличалось от нынешних стандартов. На тот момент беспилотные автомобили оснащались:

За прошедшие с тех пор почти 18 лет все компоненты претерпели радикальные изменения. В 2009 году группа из примерно двенадцати инженеров — участников соревнований DARPA — объединилась в Google для запуска проекта беспилотных автомобилей (Google self-driving project) при прямой поддержке и одобрении сооснователей поискового гиганта Ларри Пейджа и Сергея Брина. В 2016 году этот проект официально трансформировался в независимую компанию Waymo.

🧠 Эволюция ИИ: от деревьев решений до трансформеров и VLMs 4:53

Технологический фундамент Waymo развивался параллельно с глобальными циклами развития искусственного интеллекта и машинного обучения. По словам Дмитрия Долгова, роль ИИ в автономном вождении прошла через несколько важнейших этапов:

Как объясняет Долгов, если в лингвистике трансформеры предсказывают следующую последовательность слов, то в контексте вождения последовательности действий участников движения (пешеходов, водителей) аналогичны предложениям в тексте. Трансформеры позволили Waymo кардинально улучшить прогнозирование поведения окружающих актеров и планирование собственных траекторий с учетом глобального контекста сцены.

Сегодня фокус инженеров Waymo сместился на интеграцию наработанной за годы экспертизы в области автономного вождения с возможностями современных визуально-языковых моделей (VLM). Долгов подчеркивает, что объединение специализированного ИИ-движка беспилотника с общими знаниями о мире, которыми обладают большие VLM, является одним из наиболее перспективных направлений работы компании.

💻 Симуляция и синтетические данные: миллиарды виртуальных миль 9:04

В то время как в ИИ-индустрии ценность синтетических данных для обучения больших моделей периодически подвергается сомнению, в сфере автономного вождения закрытые симуляторы критически важны. Дмитрий Долгов отмечает, что оценку качества беспилотного водителя невозможно проводить исключительно в физическом мире, так как любое обновление софта заставляет машину вести себя иначе. Для безопасного тестирования необходима реалистичная симуляция с замкнутым циклом (closed-loop simulation).

Waymo выделяет три основных сценария использования симуляционных технологий:

  1. Оценка обновлений: Проверка поведения новых версий системы в контролируемой среде до их выпуска на реальные дороги.
  2. Масштабирование «длинного хвоста» (long tail) редких событий: Если беспилотник сталкивается с необычной ситуацией на дороге, симулятор позволяет размножить этот сценарий, создав тысячи и десятки тысяч его вариаций с измененными параметрами.
  3. Чистая синтетика: Генерация и обучение на сценариях, которые компания вообще никогда не встречала в реальности, несмотря на свой колоссальный пробег.

Главным требованием к симулятору является его абсолютная реалистичность. Она должна соблюдаться на уровне восприятия сенсоров, на уровне правдоподобного поведения динамических актеров (пешеходы и велосипедисты должны двигаться естественно), а также на макростатистическом уровне. На дорогах общего пользования автомобили Waymo проехали более 15 миллионов миль в полностью автономном режиме без водителя в салоне (rider-only mode) и десятки миллионов миль в общем физическом тесте. В то же время пробег в симуляции исчисляется десятками миллиардов миль, что дает колоссальный рычаг для обучения моделей.

📈 Законы масштабирования и дистилляция на борту 13:16

Обсуждая популярную в ИИ-сообществе концепцию законов масштабирования (scaling laws), Долгов подтверждает, что размер моделей имеет значение и в автономном вождении. По его мнению, многие старые узкоспециализированные модели были критически недообучены. Крупные модели обладают большей емкостью и гораздо лучше обобщают информацию, однако механическое наращивание пройденных миль или часов вождения само по себе не работает — данные должны быть качественными и содержать те самые редкие кейсы.

Специфика робомобилей накладывает жесткое ограничение: итоговая модель должна физически помещаться в бортовой компьютер автомобиля и работать в режиме реального времени. Чтобы обойти это аппаратное ограничение, Waymo использует стандартную для индустрии практику:

«Вы оказываетесь в гораздо более выигрышном положении, если сначала обучаете гигантскую модель, а затем дистиллируете ее в модель меньшего размера для работы на борту, нежели если вы изначально пытаетесь обучить маленькую модель».

🛑 Миф о сквозном ИИ (End-to-End) против инженерной реальности 14:35

Дэвид Джордж затронул тему популярного в Кремниевой долине противопоставления подходов: традиционного подхода DARPA, основанного на правилах и фиксации пограничных случаев, и современного «сквозного» подхода (End-to-End), продвигаемого рядом стартапов и конкурентов, где ИИ принимает все решения напрямую от сенсоров к рулю. Долгов назвал это разделение искусственной и ложной дихотомией.

Позиция руководителя Waymo заключается в том, что полноценная автономность требует сочетания всех доступных методов. Сквозные нейросети, трансформеры и большие базовые модели дают мощный импульс на старте, позволяя очень быстро построить красивое демо или продвинутую систему помощи водителю (ADAS). Однако, как показывает исторический опыт Waymo, базовая модель отлично справляется с первыми 99,9% задач, но спотыкается на оставшихся 0,1%, где и кроются самые сложные проблемы.

Современный генеративный ИИ обладает фундаментальными слабостями, недопустимыми для беспилотников:

Поэтому, по словам Долгова, архитектура Waymo строится по принципу «End-to-End плюс дополнительные уровни контроля и верификации», обеспечивающие безопасность там, где чистая нейросеть может выдать непредсказуемый результат.

🗺️ Расширение географии и вызовы «последнего метра» 18:32

На сегодняшний день Waymo масштабирует свои коммерческие операции. Робомобили компании работают в режиме 24/7 в Сан-Франциско и Финиксе (наиболее зрелые рынки), а также активно развиваются в Лос-Анджелесе и Остине. Машины справляются со сложнейшими погодными условиями, включая густой туман, пыльные бури и проливные дожди.

Тем не менее, одной из сложнейших и до сих пор актуальных инженерных задач Долгов называет этап посадки и высадки пассажиров (PUDO — pickup and drop-off). На первый взгляд задача кажется тривиальной, но в условиях плотной городской застройки она требует ювелирного понимания семантики среды. Беспилотник должен мгновенно решать микрозадачи:

Решение этих нюансов напрямую влияет на удовлетворенность пользователей, превращая технологическую демонстрацию в по-настоящему удобный массовый продукт.

🛡️ Безопасность, стандарты регуляторов и партнерство с Uber 21:53

Согласно официальной статистике Waymo, их беспилотные автомобили демонстрируют показатели безопасности, существенно превосходящие человеческие. Полная автономность привела к снижению количества аварий с травмами в 3,5 раза по сравнению с водителями-людьми, а число инцидентов, требующих оформления полицейского отчета, сократилось в 2 раза. Более того, совместное исследование Waymo с крупнейшей мировой перестраховочной компанией Swiss Re, охватившее около 4 миллионов миль пробега, показало снижение на 76% числа столкновений с имущественным ущербом и 100%-е сокращение страховых выплат по телесным повреждениям (при анализе степени вины и вклада участников в ДТП). Дмитрий Долгов признает, что подавляющее большинство аварий с участием Waymo — это ситуации, когда в стоящий на красный свет робомобиль сзади врезается невнимательный водитель-человек.

Поскольку общество и регуляторы предъявляют к новой технологии повышенные требования, Waymo не ограничивается сухой статистикой аварийности. Компания разработала собственную систему оценки готовности (readiness framework). В рамках этой методологии инженеры создали математическую модель идеального, предельно сфокусированного и не отвлекающегося на гаджеты водителя-человека. В каждом конкретном дорожном сценарии система Waymo оценивает свои действия относительно этого симулированного эталона, стремясь превзойти даже самый высокий человеческий стандарт.

Что касается бизнес-структуры рынка, Waymo позиционирует себя как создателя «универсального водителя» (generalizable driver). Роботакси — лишь первое зрелое применение. В будущем технология будет интегрирована в грузоперевозки (trucking), службы доставки и личный автотранспорт. В Финиксе компания тестирует гибридную бизнес-модель: у нее есть собственное приложение Waymo, но параллельно запущено глубокое партнерство с Uber. Пользователи Uber могут заказать поездку или доставку Uber Eats, и к ним приедет беспилотник Waymo. Это позволяет совмещать развитие собственной сети с моделью «водитель как услуга» (driver as a service) через сторонние платформы.

📡 Триада сенсоров и почему беспилотники не стали коммодити 27:37

Дэвид Джордж отметил важный рыночный парадокс: в сфере языковых моделей (LLM) сейчас наблюдается стремительное удешевление и коммодитизация технологий, в то время как рынок автономного транспорта, напротив, резко сузился, а многие игроки сошли с дистанции. Дмитрий Долгов объясняет это фундаментальными отличиями физического мира от цифрового. По его мнению, запуск беспилотников бесконечно сложнее по трем причинам:

  1. Грязная среда: Физический мир хаотичен, шумен и постоянно выбивает модели за рамки привычного распределения данных (out of distribution).
  2. Цена ошибки: В отличие от генерации текстов или картинок, где ценится креативность, в управлении двухтонной машиной любая ошибка ИИ имеет катастрофические последствия для жизни людей.
  3. Фактор времени: Решения должны приниматься на высоких скоростях, где счет идет на миллисекунды. Здесь нет серебряных пуль или коротких путей.

Именно поэтому Waymo категорически отказывается от идеи работы исключительно по камерам и делает ставку на аппаратную избыточность и триаду сенсоров. Каждый датчик имеет свои уникальные физические преимущества:

Сейчас Waymo развертывает уже пятое поколение своей сенсорной платформы и активно работает над внедрением шестого поколения, которое радикально снижает себестоимость оборудования при одновременном росте надежности.

🚜 Грузовик с мусором и напутствие молодым инженерам 33:19

Вспоминая ранние этапы разработки в 2009 году, Дмитрий Долгов поделился забавной историей, которая наглядно иллюстрирует непредсказуемость реального мира. Команда тестировала один из первых маршрутов протяженностью около 100 миль — от Маунтин-Вью через Пало-Альто и горы к Шоссе 1, с финалом на Маркет-стрит в Сан-Франциско.

Ранним туманным утром в горах беспилотник начал то и дело фиксировать на дороге странные одиночные объекты: сначала пластиковое ведро, затем чей-то ботинок, а чуть позже — ржавый велосипед. Машина справлялась с препятствиями, хотя и не идеально плавно. Догнав источник этих аномалий, инженеры обнаружили старый перегруженный самосвал, из кузова которого на ходу методично вываливался самый разнообразный хлам, превращая дорогу в полосу препятствий, напоминающую мультфильм.

В завершение беседы Дмитрий Долгов дал совет молодым специалистам, ищущим свое место в технологической индустрии. Он порекомендовал не гнаться за хайпом, а искать масштабные и по-настоящему значимые для мира проблемы. Как считает соисполнительный директор Waymo, самые стоящие вещи всегда оказываются самыми сложными, поэтому инженерам не стоит бояться неизвестности и критики скептиков — нужно просто брать, строить и никогда не смотреть назад.

💬 Цитаты

«Вы оказываетесь в гораздо более выигрышном положении, если сначала обучаете гигантскую модель, а затем дистиллируете ее в модель меньшего размера для работы на борту, нежели если вы изначально пытаетесь обучить маленькую модель»

Дмитрий Долгов 14:22

«Найдите проблему, которая имеет значение для мира и для вас. Скорее всего, она окажется сложной, но пусть неизвестность вас не пугает»

Дмитрий Долгов 35:45
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Rider-only mode
Режим движения беспилотного автомобиля, при котором в салоне полностью отсутствует страхующий водитель-человек.
VLM (Visual Language Model)
Мультимодальная нейросеть, способная одновременно понимать и сопоставлять текстовую информацию и визуальные образы.
Closed-loop simulation
Симуляция с замкнутым циклом, где виртуальная среда динамически реагирует на любые изменения в поведении тестируемого алгоритма вождения.
End-to-End (сквозное обучение)
Подход в ИИ, при котором одна нейросеть обрабатывает сырые данные с датчиков и сразу выдает управляющие команды для автомобиля.
Дистилляция моделей
Процесс переноса знаний из огромной, вычислительно тяжелой нейросети в более компактную и быструю модель без значительной потери точности.
PUDO (Pickup and Drop-off)
Процесс и локация точной остановки автомобиля для посадки или высадки пассажиров.
📊 Цифры
🗓 Хронология
  1. 2007 Дмитрий Долгов принимает участие в соревнованиях DARPA Urban Challenge на заброшенной авиабазе.
  2. 2009 Команда из 12 инженеров основывает секретный проект беспилотных автомобилей Google self-driving project.
  3. 2012-2013 Прорыв сверточных нейросетей (AlexNet) меняет индустрию компьютерного зрения и распознавания объектов.
  4. 2016 Проект Google официально выделяется в самостоятельную компанию Waymo под зонтиком Alphabet.
  5. 2017 Появление архитектуры Transformer открывает новые горизонты для прогнозирования траекторий и поведения актеров на дороге.
⚖️ Другая сторона
Искусственный интеллект Waymo Дмитрий Долгов a16z Transformer