# Камера вместо радара: почему автопилот Tesla отказывается от датчиков

Источник: https://www.youtube.com/watch?v=9MJTeOaSMTk
Канал: Yannic Kilcher
Опубликовано: 03.07.2021

---

Переход на полностью визуальные системы управления становится новым этапом в эволюции беспилотного транспорта. В своем докладе на конференции CVPR исследователь искусственного интеллекта Андрей Карпати представил обновленную стратегию Tesla по полному отказу от радаров в пользу технологии Vision Only. Известный ИИ-блогер Янник Килчер подробно разобрал архитектуру этого решения, объяснив, почему обработка видеопотока без классического слияния сенсоров делает автопилот эффективнее и безопаснее.

## 👁️ Отказ от радаров: почему Tesla выбирает зрение
[[JUMP:0:00]]

Автономное вождение остается одной из сложнейших инженерных задач современности, поскольку в условиях реального дорожного движения может произойти абсолютно любое непредвиденное событие. Традиционный стек Full Self-Driving (FSD) опирался на так называемое слияние сенсоров (sensor fusion), совмещающее сигналы от оптических камер и радаров. Однако ключевой проблемой данного подхода становится ситуация, когда датчики начинают противоречить друг другу. По словам Янника Килчера, программное разрешение таких конфликтов требует колоссальных усилий и порождает множество багов, что и вынудило Tesla полностью перейти на стек Vision Only, базирующийся исключительно на зрении.

Андрей Карпати подчеркивает, что человеческий мозг успешно управляет автомобилем, опираясь лишь на глаза, а значит, качественных видеокамер должно быть абсолютно достаточно и для искусственного интеллекта. Несмотря на скепсис критиков, указывающих на задержки в выполнении давних обещаний Илона Маска, Килчер убежден, что на данный момент ни одна другая компания в мире не способна продемонстрировать автономное вождение аналогичного уровня без жесткой привязки к картам местности.

## 🛠️ Автоматическая разметка и «эффект предвидения»
[[JUMP:4:52]]

Ключевым условием для обучения нейросети является чистый, идеально размеченный массив данных. Ручная аннотация миллиардов кадров силами людей обошлась бы компании слишком дорого. Чтобы преодолеть это ограничение, команда Андрея Карпати разработала и внедрила масштабную систему автоматической разметки (auto labeling). Процесс разметки происходит стационарно (offline) в лаборатории, что дает инженерам преимущества, недоступные бортовому компьютеру во время движения.

Преимущества офлайн-разметки данных:

* Отсутствие жестких требований к задержке сигнала (latency).
* Возможность запуска тяжелых, ресурсоемких нейросетей, которые физически невозможно установить в автомобиль.
* Использование «эффекта предвидения» (benefit of hindsight), когда алгоритм анализирует видеозапись одновременно в прошлое и в будущее.

По мнению Карпати, «эффект предвидения» критически важен при временной потере видимости объектов. Например, если идущий впереди автомобиль скрывается в облаке пыли или за случайным препятствием, офлайн-система видит траекторию машины до и после окклюзии, что позволяет безошибочно сшить трек и разметить весь отрезок как непрерывный. Интересно, что на этапе офлайн-трекинга инженеры используют данные радаров как вспомогательный маркер, хотя финальная модель в машине обучается обходиться без них.

## 🔄 Конвейер данных Data Engine и теневой режим
[[JUMP:8:45]]

Поскольку большая часть стандартной езды монотонна, для обучения ИИ требуются сложные дорожные аномалии (edge cases). Для их поиска Tesla задействовала весь свой серийный флот автомобилей с помощью кастомных триггеров — жестко запрограммированных правил, определяющих, какие данные нужно отправить обратно на сервер.

Примеры условий срабатывания триггеров:

* Явное расхождение (мисматч) между предсказаниями радара и визуального стека.
* Фиксация горящих стоп-сигналов у впереди идущего автомобиля при одновременном положительном ускорении текущей машины.

Отфильтрованная информация поступает в циклическую систему оптимизации, получивную название Data Engine. Процесс устроен следующим образом: нейросеть обучается на базовом датасете, после чего развертывается на автомобилях клиентов в так называемом теневом режиме (shadow mode). Модель незаметно делает предсказания, не вмешиваясь в управление. Если триггер фиксирует ошибку, этот фрагмент отправляется на сервер, автоматически размечается, проходит через юнит-тесты и интегрируется в новый обучающий пул. Для текущего релиза Vision Only команда провела семь полных кругов shadow mode, сформировав датасет объемом 1,5 петабайта.

## 🧠 Иерархическая архитектура: от «ствола» к «терминалам»
[[JUMP:12:12]]

Нейросетевая архитектура Tesla имитирует синтетический визуальный кортекс. Видеопоток со всех 8 камер сначала обрабатывается единым экстрактором признаков (backbone) на базе ResNet-подобных сетей. Затем данные объединяются в пространстве с помощью многокамерного трансформера (multi-cam fusion), а временная непрерывность обеспечивается за счет рекуррентных сетей (RNN) или 3D-сверток.

После этапа слияния начинается глубоко разветвленная структура нейросети, разделенная на три уровня:

1.  Головы (heads) — верхнеуровневое распределение типов задач.
2.  Стволы (trunks) — промежуточные блоки, группирующие схожие направления (например, навигация или классификация объектов).
3.  Терминалы (terminals) — финальные узлы, вычисляющие конкретные параметры.

Такая иерархия необходима из-за огромного количества выходных сигналов: от прогнозирования глубины каждого пикселя и отслеживания пешеходов до распознавания сигналов светофоров и дорожных линий. Подобный подход позволяет амортизировать вычислительные затраты бортового чипа. Карпати отмечает и организационный плюс: разработчики могут изолированно оптимизировать один конкретный терминал (например, скорость грузовиков), не рискуя сломать всю остальную нейросеть.

## 🖥️ Суперкомпьютер и полная вертикальная интеграция
[[JUMP:15:53]]

Для тренировки столь массивных моделей Tesla создала собственный суперкомпьютер, который, по утверждению Карпати, входит в топ-5 мощнейших вычислических кластеров мира. Система включает в себя 5760 флагманских графических процессоров NVIDIA A100 с объемом памяти 80 ГБ каждый.

Янник Килчер обращает внимание на беспрецедентный уровень вертикальной интеграции внутри ИИ-команды компании:

* Tesla полностью контролирует производство самих автомобилей и конфигурацию датчиков.
* Инженеры самостоятельно собирают и размечают данные без привлечения сторонних подрядчиков.
* Обучение моделей происходит на собственном серверном оборудовании, а готовый софт компилируется под кастомный бортовой чип FSD.

Бортовой компьютер FSD оснащен двумя системами на кристалле (SoC), каждая из которых содержит специализированный нейропроцессор (NPU) производительностью около 36 TOPS. Килчер считает, что владение всей цепочкой — от кремния до кузова автомобиля — дает колоссальный прирост продуктивности ИИ-специалистов.

## 📊 Практические тесты: Vision Only против гибридного стека
[[JUMP:18:03]]

В качестве главного доказательства эффективности нового подхода Карпати продемонстрировал результаты трековых испытаний при экстремальном торможении автомобиля «в пол». Прежний гибридный стек со слиянием радара и камер регулярно терял цель: из-за резкого наклона кузова при торможении радар сбрасывал трек, в результате чего преследуемая машина буквально «исчезала и появлялась» шесть раз за несколько секунд. Новый стек Vision Only выдал безупречно гладкий и непрерывный сигнал глубины и скорости без использования каких-либо алгоритмов постобработки.

По мнению Карпати, радары слишком чувствительны к фантомным стационарным объектам на дороге и требуют написания громоздких программных условий с обилием логических операторов `if`. Чисто визуальный автопилот распознает препятствия гораздо раньше, обеспечивая плавное и своевременное замедрение. В заключение Килчер добавляет весомый экономический аргумент: человечество как общество инвестирует в развитие оптических матриц и камер значительно больше ресурсов, чем в развитие радаров. Вследствие этого современные видеосенсоры стали не только качественнее, но и на порядок дешевле любых специализированных дальномеров.