В недавнем обзоре Tesla AI Day Лекс Фридман (Lex Fridman) делится глубоким анализом того, что он называет самым впечатляющим инженерным усилием в области искусственного интеллекта, которое ему доводилось видеть. По его мнению, амбиции Tesla выходят далеко за рамки автомобилестроения, представляя собой попытку решить фундаментальную проблему восприятия и планирования в физическом мире.
🚀 Грандиозность задачи: Почему Tesla AI Day — это не только про машины 0:00
По словам Лекса Фридмана (Lex Fridman), масштаб усилий Tesla в области алгоритмов, аннотирования данных, симуляции и вычислительных мощностей не имеет аналогов в ближайшей перспективе . Ведущий подчеркивает, что задача автономного вождения и общего восприятия робототехники в реальном мире намного сложнее, чем принято считать в индустрии .
В рамках презентации были представлены ключевые компоненты этой экосистемы:
- Архитектура и пайплайн нейронных сетей.
- Специализированное оборудование Autopilot для инференса внутри автомобиля.
- Вычислительная платформа Dojo для обучения моделей.
- Система симуляции для обработки редких краевых случаев (edge cases).
- Обобщенное применение этих технологий в гуманоидной форме — Tesla Bot .
🧠 Архитектура нейронных сетей: Прыжок в векторное пространство 1:16
Лекс Фридман (Lex Fridman) выделяет несколько «бриллиантовых» дизайнерских идей в архитектуре нейросетей Tesla, которые, по его мнению, являются качественным скачком вперед относительно текущего состояния дел в машинном обучении (state-of-the-art) .
Переход от изображений к векторам
Ключевым инновационным шагом Лекс Фридман (Lex Fridman) считает предсказание в векторном пространстве, а не в пространстве изображений . Традиционное компьютерное зрение работает с 2D-проекциями, но реальность происходит в 3D. По мнению ведущего, обучать ИИ на двухмерных картинках не имеет смысла, если цель — навигация в физическом мире .
Раннее слияние данных датчиков
Вторая важная деталь — слияние данных с камер до начала процесса детекции объектов.
- Текущий метод: слияние происходит на уровне многомасштабных признаков (multi-scale features) .
- Мнение эксперта: Лекс Фридман (Lex Fridman) отмечает, что это «очевидный, но очень сложный инженерный шаг» — объединять сырые данные со всех сенсоров, вместо того чтобы комбинировать уже готовые решения от каждого датчика в отдельности .
Пространственно-временное моделирование
Tesla использует видеоконтекст для моделирования не только пространства, но и времени. Архитектура включает:
- Пространственные рекуррентные нейронные сети (Spatial RNN).
- 2D-сетку вокруг автомобиля, где каждая ячейка является RNN .
- Возможность строить карту и осуществлять планирование непосредственно в пространстве признаков нейросети .
Андрей Карпати (бывший директор по ИИ в Tesla), как упоминает Лекс Фридман (Lex Fridman), стремится двигаться к полностью сквозному (end-to-end) вождению, где слияние пространственных и временных данных происходит на самых ранних этапах работы сети .
♟️ Планирование как игра в шахматы 3:25
Оптимальное планирование в пространстве действий считается вычислительно неразрешимой задачей (intractable), поэтому инженеры обычно полагаются на эвристики .
Tesla предложила использовать нейронные сети в качестве эвристик, аналогично тому, как это было реализовано в проектах MuZero и AlphaZero от DeepMind для игры в го и шахматы . Это позволяет значительно сократить (отсечь) дерево поиска в пространстве действий и найти план, близкий к глобальному оптимуму, не застревая в локальных минимумах .
🛠️ Двигатель данных (Data Engine): Инструменты и автоматизация 4:58
Чтобы нейросети могли предсказывать в векторном пространстве, данные должны быть размечены в этом же пространстве. Лекс Фридман (Lex Fridman) описывает этот процесс как сложный технологический цикл:
- Ручное аннотирование: Tesla создала собственную команду и инструменты для разметки в векторном пространстве с последующей проекцией обратно в изображения .
- Автоматическая разметка (Auto-labeling): использование фрагментов данных (видео, инерциальные датчики, GPS) от множества автомобилей, находившихся в одной локации в разное время. Это позволяет реконструировать статичный мир и кинематику объектов .
- Симуляция: применяется для генерации редких сценариев, которые почти невозможно встретить в реальности (например, сцена с сотней пешеходов одновременно) .
По данным презентации, Tesla использует около 10 000 графических процессоров (GPU) для непрерывного обучения моделей. Фридман утверждает, что сеть полностью переобучается «от и до» каждые одну-две недели .
💻 Dojo: Вычислительный монстр и «ИИ как сервис» 7:31
Одной из самых амбициозных новинок стал компьютер Dojo, предназначенный исключительно для обучения моделей в дата-центрах.
- Чип D1: собственная разработка Tesla с высокоскоростным вводом-выводом (I/O).
- Тренировочный тайл (Tile): обладает мощностью 9 петафлопс (PFlops) .
- Масштабируемость: Tesla объединяет эти узлы в кластеры мощностью 1,1 экзафлопс (EFlops) .
Лекс Фридман (Lex Fridman) считает, что Dojo может стать конкурентом облачным сервисам AWS и Google Cloud, предлагая обучение ИИ как услугу (AI training as a service) для любых задач машинного обучения, а не только для автопилота .
🤖 Tesla Bot: От инструмента к цифровому компаньону 10:09
Завершая разбор, Лекс Фридман (Lex Fridman) рассуждает о Tesla Bot — гуманоидном роботе, использующем те же алгоритмы восприятия, что и автомобиль. Ведущий признается, что его давняя мечта — создание робота-друга, а не просто слуги для скучных и опасных задач .
По мнению Лекса Фридмана (Lex Fridman):
- Tesla может решить аппаратную часть проблемы (восприятие, движение, манипуляция объектами) .
- Сам Фридман надеется внести вклад в решение проблемы взаимодействия человека и робота и создания эмоциональной связи .
Фридман заключает, что представленный на Tesla AI Day итеративный цикл сбора данных, обучения и развертывания не имеет «потолка» и сулит захватывающее будущее для всей области робототехники .