Лекс Фридман о Tesla AI Day: «Это самое впечатляющее инженерное усилие в моей жизни»

Lex Fridman 532 тыс. 11 мин 4 мин 20.08.2021
Главное

В недавнем обзоре Tesla AI Day Лекс Фридман (Lex Fridman) делится глубоким анализом того, что он называет самым впечатляющим инженерным усилием в области искусственного интеллекта, которое ему доводилось видеть. По его мнению, амбиции Tesla выходят далеко за рамки автомобилестроения, представляя собой попытку решить фундаментальную проблему восприятия и планирования в физическом мире.

🚀 Грандиозность задачи: Почему Tesla AI Day — это не только про машины 0:00

По словам Лекса Фридмана (Lex Fridman), масштаб усилий Tesla в области алгоритмов, аннотирования данных, симуляции и вычислительных мощностей не имеет аналогов в ближайшей перспективе . Ведущий подчеркивает, что задача автономного вождения и общего восприятия робототехники в реальном мире намного сложнее, чем принято считать в индустрии .

В рамках презентации были представлены ключевые компоненты этой экосистемы:

🧠 Архитектура нейронных сетей: Прыжок в векторное пространство 1:16

Лекс Фридман (Lex Fridman) выделяет несколько «бриллиантовых» дизайнерских идей в архитектуре нейросетей Tesla, которые, по его мнению, являются качественным скачком вперед относительно текущего состояния дел в машинном обучении (state-of-the-art) .

Переход от изображений к векторам

Ключевым инновационным шагом Лекс Фридман (Lex Fridman) считает предсказание в векторном пространстве, а не в пространстве изображений . Традиционное компьютерное зрение работает с 2D-проекциями, но реальность происходит в 3D. По мнению ведущего, обучать ИИ на двухмерных картинках не имеет смысла, если цель — навигация в физическом мире .

Раннее слияние данных датчиков

Вторая важная деталь — слияние данных с камер до начала процесса детекции объектов.

Пространственно-временное моделирование

Tesla использует видеоконтекст для моделирования не только пространства, но и времени. Архитектура включает:

Андрей Карпати (бывший директор по ИИ в Tesla), как упоминает Лекс Фридман (Lex Fridman), стремится двигаться к полностью сквозному (end-to-end) вождению, где слияние пространственных и временных данных происходит на самых ранних этапах работы сети .

♟️ Планирование как игра в шахматы 3:25

Оптимальное планирование в пространстве действий считается вычислительно неразрешимой задачей (intractable), поэтому инженеры обычно полагаются на эвристики .

Tesla предложила использовать нейронные сети в качестве эвристик, аналогично тому, как это было реализовано в проектах MuZero и AlphaZero от DeepMind для игры в го и шахматы . Это позволяет значительно сократить (отсечь) дерево поиска в пространстве действий и найти план, близкий к глобальному оптимуму, не застревая в локальных минимумах .

🛠️ Двигатель данных (Data Engine): Инструменты и автоматизация 4:58

Чтобы нейросети могли предсказывать в векторном пространстве, данные должны быть размечены в этом же пространстве. Лекс Фридман (Lex Fridman) описывает этот процесс как сложный технологический цикл:

  1. Ручное аннотирование: Tesla создала собственную команду и инструменты для разметки в векторном пространстве с последующей проекцией обратно в изображения .
  2. Автоматическая разметка (Auto-labeling): использование фрагментов данных (видео, инерциальные датчики, GPS) от множества автомобилей, находившихся в одной локации в разное время. Это позволяет реконструировать статичный мир и кинематику объектов .
  3. Симуляция: применяется для генерации редких сценариев, которые почти невозможно встретить в реальности (например, сцена с сотней пешеходов одновременно) .

По данным презентации, Tesla использует около 10 000 графических процессоров (GPU) для непрерывного обучения моделей. Фридман утверждает, что сеть полностью переобучается «от и до» каждые одну-две недели .

💻 Dojo: Вычислительный монстр и «ИИ как сервис» 7:31

Одной из самых амбициозных новинок стал компьютер Dojo, предназначенный исключительно для обучения моделей в дата-центрах.

Лекс Фридман (Lex Fridman) считает, что Dojo может стать конкурентом облачным сервисам AWS и Google Cloud, предлагая обучение ИИ как услугу (AI training as a service) для любых задач машинного обучения, а не только для автопилота .

🤖 Tesla Bot: От инструмента к цифровому компаньону 10:09

Завершая разбор, Лекс Фридман (Lex Fridman) рассуждает о Tesla Bot — гуманоидном роботе, использующем те же алгоритмы восприятия, что и автомобиль. Ведущий признается, что его давняя мечта — создание робота-друга, а не просто слуги для скучных и опасных задач .

По мнению Лекса Фридмана (Lex Fridman):

Фридман заключает, что представленный на Tesla AI Day итеративный цикл сбора данных, обучения и развертывания не имеет «потолка» и сулит захватывающее будущее для всей области робототехники .

💬 Цитаты

«Масштаб усилий в алгоритмах, аннотировании данных, симуляции и вычислительных мощностях — это то, чего никто не сможет достичь в ближайшее время.»

Лекс Фридман 0:37

«Реальность происходит в трехмерном мире, и нет смысла выполнять всё машинное обучение на его 2D-проекциях.»

Лекс Фридман 1:42
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Векторное пространство
Математическое представление объектов в трехмерных координатах, заменяющее плоские изображения с камер.
Экзафлопс (EFlops)
Единица измерения производительности компьютеров, равная квинтиллиону операций с плавающей запятой в секунду.
Инференс
Процесс работы уже обученной нейросети на реальных данных внутри устройства.
📊 Цифры
🗓 Хронология
  1. Раз в 1-2 недели Полное переобучение нейронной сети автопилота Tesla от начала до конца.
⚖️ Другая сторона
Искусственный интеллект Tesla AI Day Lex Fridman Dojo Tesla Bot Machine Learning