Адриан Гайден из TRI: «Мы знаем, как машины учатся, но не умеем их обучать»

Как обучаются современные нейросети и почему мы до сих пор не умеем их «учить»? В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон беседует с Адрианом Гайденом (Adrien Gaidon), главой отдела исследований машинного обучения в Toyota Research Institute (TRI). Они обсуждают переход от простого масштабирования данных к «принципоцентричному» ИИ, роль геометрии в беспилотных автомобилях и то, чему разработчики алгоритмов могут научиться у семилетних детей.

🧠 От накопления данных к искусству обучения 7:07

Адриан Гайден выдвигает парадоксальный тезис: человечество уже поняло, как машины учатся, но всё ещё не знает, как их эффективно обучать . По его мнению, эпоха чистого эмпиризма, начавшаяся в 2012 году с успехов глубокого обучения, привела к доминированию «гипотезы масштабирования» (scaling hypothesis) — убеждения, что чем больше модель и объем данных, тем лучше результат .

Однако Гайден считает такой подход тупиковым для достижения истинной автономности. Он выделяет четыре типа «персонажей» в современной индустрии ИИ:

«Надзиратели» (Supervisors): Гиганты индустрии, которые полагаются на бесконечную ручную разметку данных. Гайден критикует этот путь, так как разметка пикселей вручную — это «бесконечная погоня», не ведущая к сильному ИИ (AGI) .
«Геозонеры» (Geofencers): Компании вроде Waymo или Cruise, которые создают безопасные «игровые площадки» (geofences) для роботов. Они успешны в закрытых условиях, но их подход сложно масштабировать на весь открытый мир .
«Маги» (Magicians): Сторонники OpenAI и DeepMind, верящие, что масштаб данных сам по себе породит интеллект. Гайден признает их успехи (GPT-3, DALL-E), но считает, что магическое «возникновение» свойств из данных — это не контроль, а отсутствие понимания механизмов .
«Педагоги» (Educators): Сторонники принципоцентричного ИИ (Principle-centric AI). Этот подход Гайден иллюстрирует примером обучения своей семилетней дочери езде на велосипеде .

🚲 Урок езды на велосипеде: почему обучение с подкреплением проигрывает принципам 16:44

Гайден рассказывает личную историю: в течение года он пытался научить дочь Касси кататься на велосипеде, используя методы, напоминающие обучение с подкреплением (RL). Он страховал её, давал «награды» за успех и настраивал «штрафы», но прогресса не было . Ситуация изменилась, когда он применил рекомендации Жиля Пратта (CEO TRI) и метод «Pedal Magic» .

Вместо того чтобы просто практиковаться («собирать данные»), девочке объяснили физические принципы баланса, связанные с тем, как гепарды используют хвост при поворотах . В сочетании с упражнениями в микро-среде это позволило ей поехать самостоятельно всего за 10 минут . Для Гайдена это стало доказательством того, что знание фундаментальных физических принципов важнее, чем грубая сила данных и перебор итераций .

📐 Геометрия как учитель: Self-Supervised Learning в TRI 26:43

В Toyota Research Institute активно развивают методы самообучения (Self-Supervised Learning), основанные на геометрических принципах . Вместо того чтобы размечать каждый объект на видео вручную, исследователи используют законы оптики и физики света в качестве функции потерь.

Ключевые аспекты метода:

Геометрические ограничения: Используется модель камеры-обскуры (pinhole camera) и уравнения репроекции. Эти знания, известные человечеству тысячи лет, встраиваются в процесс обучения нейросети .
Реконструкция из видео: Модель (например, PackNet-SfM) получает на вход сырые видео и учится предсказывать глубину сцены (depth estimation) .
Самокоррекция: Если сеть неверно определяет глубину, пиксели при геометрическом совмещении соседних кадров не совпадут. Ошибка возникает не из-за неверной геометрии, а из-за неправильных весов нейросети, что позволяет проводить обратное распространение ошибки без участия человека .

Этот подход позволяет создавать «облака точек» из обычного видео с одной камеры, что делает технологию универсальной для любых платформ — от смартфонов до сложных роботов .

📉 Парадокс «хвоста»: почему самообучение надежнее разметки 34:42

Одним из самых удивительных открытий TRI стало то, что самообучение делает модели более устойчивыми к редким событиям (corner cases), чем традиционное обучение с учителем .

Гайден объясняет это так:

При обычном обучении модель фокусируется на «моде» (самых частых событиях, например, езде прямо) и игнорирует всё остальное как шум. Это делает систему уязвимой к неожиданным изменениям .
Контрастивное обучение (Contrastive Learning) заставляет модель изучать все признаки в кадре, чтобы найти инварианты. В результате модель учится замечать, например, пешеходов позади машины, даже если они не влияют на текущую задачу торможения .
В TRI доказали: самообучение работает лучше не потому, что оно лучше извлекает черты «длинного хвоста» (редких данных), а потому, что оно извлекает более разнообразные и общие черты из основных данных («моды») .

🎮 Синтетические данные и «программируемое обучение» 42:51

Поскольку физические законы (например, $F = ma$ или гравитация) сложно напрямую заложить в архитектуру глубокой нейросети , TRI использует симуляторы. Гайден называет это «программируемыми данными» (Programmable Data) .

Исследователи пишут код, который генерирует учебные примеры согласно физическим принципам. Это позволяет:

Генерировать сценарии аварий и опасных ситуаций, которые невозможно или неэтично собирать в реальности .
Создавать структурированный «учебный план» (curriculum) для ИИ .
Гарантировать «заземление» (grounding) ИИ в реальности, так как данные в симуляторе подчиняются законам физики .

В конечном итоге, по мнению Гайдена, индустрия переходит от «эпохи сбора всего подряд» к «эпохе разума», где глубокое обучение сочетается с накопленными научными знаниями человечества .