Гонка за «автономным водителем»: Как OpenAI и Ghost Autonomy меняют правила игры 🚗 1:43
Индустрия беспилотного транспорта находится в точке перегиба, переходя от узкоспециализированных роботизированных систем к универсальному интеллекту. Основатель Ghost Autonomy Джон Хейс в интервью подкасту The Cognitive Revolution рассказал, как партнерство с OpenAI и внедрение мультимодальных больших языковых моделей (LLM) может навсегда изменить архитектуру беспилотных автомобилей, сделав их более надежными и «понимающими» мир.
🏛 Истоки: от хранилищ данных к автопилоту 6:03
Путь Джона Хейса в технологиях начался с поиска фундаментальных сдвигов. До создания Ghost Autonomy он был сооснователем Pure Storage, компании, которая в 2009 году сделала ставку на повсеместное внедрение флэш-памяти в корпоративные системы. Хейс увидел аналогичный потенциал в автономном вождении, когда в 2017 году решил основать Ghost Autonomy.
По мнению основателя, большинство компаний того времени совершали две стратегические ошибки:
- Игнорирование потребительского рынка: Они строили утопические модели, ориентированные на роботакси в крупных городах, игнорируя 98% реальных поездок людей.
- Сверхсложное «железо»: Использование дорогостоящих сенсоров (лидаров, специализированных компьютеров) делало системы трудномасштабируемыми.
Хейс сделал ставку на два фактора: постоянное улучшение потребительской электроники (камер и процессоров) и неизбежную победу методов искусственного интеллекта над традиционным написанием кода для робототехники.
🛠 Классика против нового подхода: архитектурный сдвиг 15:58
Традиционный стек автономии, производный от соревнований DARPA Urban Challenge, крайне сложен. Он разбит на жесткие этапы:
- Картирование: Создание 3D-сканов города для позиционирования с точностью до сантиметра.
- Восприятие: Определение объектов в сцене.
- Прогнозирование: Расчет траектории движения всех участников.
- Планирование: Поиск пути в пространстве, часто через сложные алгоритмы поиска.
Ghost Autonomy выбрала радикально иной путь. Вместо того чтобы управлять этими «ступенями» как отдельными командами, они стремятся к «end-to-end» системе — единой модели, которая на вход получает данные с камер, а на выходе выдает вектор движения.
🤖 OpenAI как «мозг» беспилотника 55:11
Главная проблема «роботизированного» подхода — бесконечные «краевые случаи» (edge cases), когда система ведет себя непредсказуемо из-за нюансов, не заложенных в код. Здесь на помощь приходят мультимодальные модели, такие как GPT-4.
- Коллективный разум: Хейс утверждает, что «галлюцинации» LLM — это, на самом деле, их сильная сторона, так как именно в них заложен общечеловеческий здравый смысл.
- Разделение задач: Ghost Autonomy использует двухуровневую архитектуру. Быстрая система (30 Гц) отвечает за безопасность и текущее удержание полосы. Более медленная, но «интеллектуальная» система на базе LLM анализирует сцену и дает высокоуровневые указания, как «API для вождения».
По словам Хейса, это позволяет не обучать модель распознавать каждый конкретный дорожный знак, а просто спросить у системы, что делать в сложной ситуации (например, в зоне ремонта дороги с регулировщиком).
🚧 Барьеры и будущее индустрии
Почему мы до сих пор не ездим на беспилотниках повсеместно? Джон Хейс выделяет несколько причин:
- Отсутствие личного опыта: Большинство потребителей не пробовали беспилотные технологии и формируют мнение на основе новостей.
- Неуверенность регуляторов: Регулирующие органы боятся писать правила для технологий, которые еще не имеют «доказательства существования» в широком масштабе.
- Кризис коммуникации: Инциденты, подобные сбоям в Cruise, часто связаны не только с технологией, но и с провалом в работе с медиа и правительством.
Хейс считает, что индустрии нужен «ground swell» — волна общественного спроса. Для этого компании должны не просто ждать идеальной безопасности, а создавать продукты, которые люди захотят использовать лично. В долгосрочной перспективе, уверен гость, нас ждет будущее, где ИИ станет посредником во всех компьютерных интерфейсах — от Gmail до управления автомобилем — делая их доступными через обычную человеческую речь.