# Адриан Гайден из TRI: «Мы знаем, как машины учатся, но не умеем их обучать»

Источник: https://www.youtube.com/watch?v=BKub_TLZ2yk
Канал: The TWIML AI Podcast
Опубликовано: 23.05.2022

---

Как обучаются современные нейросети и почему мы до сих пор не умеем их «учить»? В новом выпуске подкаста **The TWIML AI Podcast** ведущий **Сэм Черрингтон** беседует с **Адрианом Гайденом (Adrien Gaidon)**, главой отдела исследований машинного обучения в **Toyota Research Institute (TRI)**. Они обсуждают переход от простого масштабирования данных к «принципоцентричному» ИИ, роль геометрии в беспилотных автомобилях и то, чему разработчики алгоритмов могут научиться у семилетних детей.

## 🧠 От накопления данных к искусству обучения
[[JUMP:07:07]]

Адриан Гайден выдвигает парадоксальный тезис: человечество уже поняло, как машины учатся, но всё ещё не знает, как их эффективно обучать [07:07]. По его мнению, эпоха чистого эмпиризма, начавшаяся в 2012 году с успехов глубокого обучения, привела к доминированию «гипотезы масштабирования» (scaling hypothesis) — убеждения, что чем больше модель и объем данных, тем лучше результат [09:28].

Однако Гайден считает такой подход тупиковым для достижения истинной автономности. Он выделяет четыре типа «персонажей» в современной индустрии ИИ:

*   **«Надзиратели» (Supervisors):** Гиганты индустрии, которые полагаются на бесконечную ручную разметку данных. Гайден критикует этот путь, так как разметка пикселей вручную — это «бесконечная погоня», не ведущая к сильному ИИ (AGI) [13:12].
*   **«Геозонеры» (Geofencers):** Компании вроде Waymo или Cruise, которые создают безопасные «игровые площадки» (geofences) для роботов. Они успешны в закрытых условиях, но их подход сложно масштабировать на весь открытый мир [13:51].
*   **«Маги» (Magicians):** Сторонники OpenAI и DeepMind, верящие, что масштаб данных сам по себе породит интеллект. Гайден признает их успехи (GPT-3, DALL-E), но считает, что магическое «возникновение» свойств из данных — это не контроль, а отсутствие понимания механизмов [15:11].
*   **«Педагоги» (Educators):** Сторонники **принципоцентричного ИИ (Principle-centric AI)**. Этот подход Гайден иллюстрирует примером обучения своей семилетней дочери езде на велосипеде [16:30].

## 🚲 Урок езды на велосипеде: почему обучение с подкреплением проигрывает принципам
[[JUMP:16:44]]

Гайден рассказывает личную историю: в течение года он пытался научить дочь Касси кататься на велосипеде, используя методы, напоминающие обучение с подкреплением (RL). Он страховал её, давал «награды» за успех и настраивал «штрафы», но прогресса не было [16:56]. Ситуация изменилась, когда он применил рекомендации Жиля Пратта (CEO TRI) и метод «Pedal Magic» [17:23].

Вместо того чтобы просто практиковаться («собирать данные»), девочке объяснили физические принципы баланса, связанные с тем, как гепарды используют хвост при поворотах [17:36]. В сочетании с упражнениями в микро-среде это позволило ей поехать самостоятельно всего за 10 минут [18:00]. Для Гайдена это стало доказательством того, что знание фундаментальных физических принципов важнее, чем грубая сила данных и перебор итераций [18:27].

## 📐 Геометрия как учитель: Self-Supervised Learning в TRI
[[JUMP:26:43]]

В Toyota Research Institute активно развивают методы **самообучения (Self-Supervised Learning)**, основанные на геометрических принципах [26:55]. Вместо того чтобы размечать каждый объект на видео вручную, исследователи используют законы оптики и физики света в качестве функции потерь.

Ключевые аспекты метода:

1.  **Геометрические ограничения:** Используется модель камеры-обскуры (pinhole camera) и уравнения репроекции. Эти знания, известные человечеству тысячи лет, встраиваются в процесс обучения нейросети [28:12].
2.  **Реконструкция из видео:** Модель (например, **PackNet-SfM**) получает на вход сырые видео и учится предсказывать глубину сцены (depth estimation) [29:04].
3.  **Самокоррекция:** Если сеть неверно определяет глубину, пиксели при геометрическом совмещении соседних кадров не совпадут. Ошибка возникает не из-за неверной геометрии, а из-за неправильных весов нейросети, что позволяет проводить обратное распространение ошибки без участия человека [29:45].

Этот подход позволяет создавать «облака точек» из обычного видео с одной камеры, что делает технологию универсальной для любых платформ — от смартфонов до сложных роботов [30:35].

## 📉 Парадокс «хвоста»: почему самообучение надежнее разметки
[[JUMP:34:42]]

Одним из самых удивительных открытий TRI стало то, что самообучение делает модели более устойчивыми к редким событиям (corner cases), чем традиционное обучение с учителем [34:55].

Гайден объясняет это так:

*   При обычном обучении модель фокусируется на «моде» (самых частых событиях, например, езде прямо) и игнорирует всё остальное как шум. Это делает систему уязвимой к неожиданным изменениям [36:02].
*   **Контрастивное обучение (Contrastive Learning)** заставляет модель изучать *все* признаки в кадре, чтобы найти инварианты. В результате модель учится замечать, например, пешеходов позади машины, даже если они не влияют на текущую задачу торможения [38:12].
*   В TRI доказали: самообучение работает лучше не потому, что оно лучше извлекает черты «длинного хвоста» (редких данных), а потому, что оно извлекает более разнообразные и общие черты из основных данных («моды») [39:42].

## 🎮 Синтетические данные и «программируемое обучение»
[[JUMP:42:51]]

Поскольку физические законы (например, $F = ma$ или гравитация) сложно напрямую заложить в архитектуру глубокой нейросети [43:28], TRI использует симуляторы. Гайден называет это **«программируемыми данными» (Programmable Data)** [43:42].

Исследователи пишут код, который генерирует учебные примеры согласно физическим принципам. Это позволяет:

*   Генерировать сценарии аварий и опасных ситуаций, которые невозможно или неэтично собирать в реальности [44:07].
*   Создавать структурированный «учебный план» (curriculum) для ИИ [44:32].
*   Гарантировать «заземление» (grounding) ИИ в реальности, так как данные в симуляторе подчиняются законам физики [44:57].

В конечном итоге, по мнению Гайдена, индустрия переходит от «эпохи сбора всего подряд» к «эпохе разума», где глубокое обучение сочетается с накопленными научными знаниями человечества [46:43].