Адриан Гайден из TRI: «Мы знаем, как машины учатся, но не умеем их обучать»

The TWIML AI Podcast 582 49 мин 4 мин 23.05.2022
Главное

Как обучаются современные нейросети и почему мы до сих пор не умеем их «учить»? В новом выпуске подкаста The TWIML AI Podcast ведущий Сэм Черрингтон беседует с Адрианом Гайденом (Adrien Gaidon), главой отдела исследований машинного обучения в Toyota Research Institute (TRI). Они обсуждают переход от простого масштабирования данных к «принципоцентричному» ИИ, роль геометрии в беспилотных автомобилях и то, чему разработчики алгоритмов могут научиться у семилетних детей.

🧠 От накопления данных к искусству обучения 7:07

Адриан Гайден выдвигает парадоксальный тезис: человечество уже поняло, как машины учатся, но всё ещё не знает, как их эффективно обучать . По его мнению, эпоха чистого эмпиризма, начавшаяся в 2012 году с успехов глубокого обучения, привела к доминированию «гипотезы масштабирования» (scaling hypothesis) — убеждения, что чем больше модель и объем данных, тем лучше результат .

Однако Гайден считает такой подход тупиковым для достижения истинной автономности. Он выделяет четыре типа «персонажей» в современной индустрии ИИ:

🚲 Урок езды на велосипеде: почему обучение с подкреплением проигрывает принципам 16:44

Гайден рассказывает личную историю: в течение года он пытался научить дочь Касси кататься на велосипеде, используя методы, напоминающие обучение с подкреплением (RL). Он страховал её, давал «награды» за успех и настраивал «штрафы», но прогресса не было . Ситуация изменилась, когда он применил рекомендации Жиля Пратта (CEO TRI) и метод «Pedal Magic» .

Вместо того чтобы просто практиковаться («собирать данные»), девочке объяснили физические принципы баланса, связанные с тем, как гепарды используют хвост при поворотах . В сочетании с упражнениями в микро-среде это позволило ей поехать самостоятельно всего за 10 минут . Для Гайдена это стало доказательством того, что знание фундаментальных физических принципов важнее, чем грубая сила данных и перебор итераций .

📐 Геометрия как учитель: Self-Supervised Learning в TRI 26:43

В Toyota Research Institute активно развивают методы самообучения (Self-Supervised Learning), основанные на геометрических принципах . Вместо того чтобы размечать каждый объект на видео вручную, исследователи используют законы оптики и физики света в качестве функции потерь.

Ключевые аспекты метода:

  1. Геометрические ограничения: Используется модель камеры-обскуры (pinhole camera) и уравнения репроекции. Эти знания, известные человечеству тысячи лет, встраиваются в процесс обучения нейросети .
  2. Реконструкция из видео: Модель (например, PackNet-SfM) получает на вход сырые видео и учится предсказывать глубину сцены (depth estimation) .
  3. Самокоррекция: Если сеть неверно определяет глубину, пиксели при геометрическом совмещении соседних кадров не совпадут. Ошибка возникает не из-за неверной геометрии, а из-за неправильных весов нейросети, что позволяет проводить обратное распространение ошибки без участия человека .

Этот подход позволяет создавать «облака точек» из обычного видео с одной камеры, что делает технологию универсальной для любых платформ — от смартфонов до сложных роботов .

📉 Парадокс «хвоста»: почему самообучение надежнее разметки 34:42

Одним из самых удивительных открытий TRI стало то, что самообучение делает модели более устойчивыми к редким событиям (corner cases), чем традиционное обучение с учителем .

Гайден объясняет это так:

🎮 Синтетические данные и «программируемое обучение» 42:51

Поскольку физические законы (например, $F = ma$ или гравитация) сложно напрямую заложить в архитектуру глубокой нейросети , TRI использует симуляторы. Гайден называет это «программируемыми данными» (Programmable Data) .

Исследователи пишут код, который генерирует учебные примеры согласно физическим принципам. Это позволяет:

В конечном итоге, по мнению Гайдена, индустрия переходит от «эпохи сбора всего подряд» к «эпохе разума», где глубокое обучение сочетается с накопленными научными знаниями человечества .

💬 Цитаты

«Мы знаем, как машины учатся, но мы не знаем, как их учить.»

Адриан Гайден 07:07

«Я верю в автономность больше, чем в интеллект, потому что хочу, чтобы роботы были полезными.»

Адриан Гайден 16:06

«Вы не правы не потому, что геометрия ошибочна, а потому, что веса вашей нейросети неверны.»

Адриан Гайден 29:58
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Self-supervised Learning
Метод обучения ИИ, при котором система сама создает метки для данных, используя их внутреннюю структуру или физические законы.
Inductive Bias
Предварительные допущения или правила, заложенные в алгоритм для улучшения его способности к обобщению.
Monocular Depth Estimation
Определение расстояния до объектов на основе изображения всего с одной камеры.
Corner cases
Редкие, граничные ситуации, которые редко встречаются в обучающей выборке, но критичны для безопасности.
📊 Цифры
🗓 Хронология
  1. 2012 Начало эпохи глубокого обучения и эмпиризма в ИИ после успеха нейросети Крижевского.
  2. Май 2019 Первое появление Адриана Гайдена в подкасте TWIML.
  3. Май 2022 Запись текущего интервью о принципоцентричном ИИ.
⚖️ Другая сторона
Искусственный интеллект Adrien Gaidon Toyota Research Institute Self-supervised Learning Synthetic Data PackNet-SfM