«Ловушка первого шага»: почему компьютерное зрение сложнее, чем кажется

Lex Fridman 73 тыс. 1 ч 41 мин 4 мин 21.07.2020
Главное

Джитендра Малик — один из признанных патриархов современного компьютерного зрения, чьи работы сформировали облик этой дисциплины задолго до революции глубокого обучения. В беседе с Лексом Фридманом он размышляет о том, почему задача, казавшаяся в 1966 году делом одного студенческого лета, до сих пор остается нерешенной, и как путь к истинному интеллекту лежит через понимание биологии и развития ребенка.

👁️ Иллюзия простоты: наследие 1966 года 3:19

История компьютерного зрения как академической дисциплины часто отсчитывается от 1966 года, когда Сеймур Пейперт из MIT запустил проект «Summer Vision Project». Идея заключалась в том, чтобы группа из десяти студентов за одно лето решила основные задачи зрения: сегментацию объектов и описание сцены. По мнению Джитендры Малика, такая колоссальная недооценка сложности проблемы была неизбежна.

Основная причина кроется в биологическом устройстве человека:

Джитендра Малик описывает это явление как «ловушку успешного первого шага»: во многих задачах зрения можно достичь 50% успеха за минуту, 90% — за день, но последние доли процента (99.99%) могут не поддаться исследователям в течение всей жизни.

🚗 Пессимизм в отношении беспилотников и «проблема 0.01%» 9:02

Обсуждая текущие успехи в области автономного вождения, в частности систему Tesla Autopilot, Малик выражает сдержанный пессимизм относительно полной автономии в ближайшем будущем. Он считает, что вождение на шоссе — задача вполне решаемая, что было доказано еще в 80-х и 90-х годах работами Эрнста Дикманса и команд из Беркли и CMU. Однако реальный мир полон критических «краевых случаев» (edge cases).

Гость приводит пример из личного опыта владения Tesla: система не смогла корректно предсказать поведение скейтбордиста, поскольку её модель предсказания была настроена на типичных пешеходов. По мнению Малика, для безопасного вождения недостаточно просто распознавать объекты — необходимо обладать «когнитивным пониманием» их целей и намерений.

Основные аргументы Малика против быстрой реализации Full Self-Driving:

  1. Погрешность: Ошибка в поиске картинок Google не критична, но ошибка на скорости 100 км/ч смертельна.
  2. Отсутствие здравого смысла: Роботам не хватает накопленного за годы жизни понимания физики и поведения агентов.
  3. Неэффективность данных: Современным системам нужно в тысячи раз больше данных, чем человеку, чтобы научиться элементарным вещам.

👶 Чему ИИ может научиться у ребенка 16:13

Джитендра Малик критикует современный подход tabula rasa (обучение с чистого листа), используемый в глубоком обучении. Когда 16-летний подросток приходит в автошколу, он уже является «визуальным гением». К двум годам ребенок уже понимает трехмерность мира, окклюзию (перекрытие объектов), основы физики и динамику тел.

Малик выделяет несколько принципов обучения ребенка, которые следует внедрить в ИИ:

Ученый полагает, что мы должны создавать симуляционные среды (например, проект Habitat от Facebook AI Research), которые будут реалистичны не только визуально, но и физически.



📐 Три «R» компьютерного зрения 57:07

Для структурирования задач в области Малик предлагает фреймворк из трех составляющих, которые должны работать в единой связке:

  1. Recognition (Распознавание): Присвоение меток (это собака, это стул). Самая простая и наиболее проработанная сегодня часть.
  2. Reconstruction (Реконструкция): Создание трехмерной модели мира по двумерным изображениям («обратная графика»).
  3. Reorganization (Реорганизация): Способность выделять в потоке пикселей отдельные сущности и объекты, понимать их границы и структуру.

По словам Малика, в биологических системах эти процессы не разделены: мы видим обратные связи, где высокоуровневые знания (когниция) постоянно корректируют низкоуровневые ощущения. В искусственных сетях (например, ResNet-50) процесс обычно идет строго в одну сторону — от пикселей к метке, что делает их менее гибкими по сравнению с мозгом, который использует всего около 7 слоев обработки, но с мощным фидбеком.

🗣️ Язык как надстройка над зрением 1:09:00

Малик вступает в заочную дискуссию с Ноамом Хомским, утверждая, что зрение гораздо фундаментальнее языка. С точки зрения эволюции (филогенеза), зрение появилось около 500 миллионов лет назад в Кембрийский период, в то время как язык — лишь несколько сотен тысяч лет назад.

По мнению гостя, язык строится на субстрате пространственного интеллекта. Все человеческие лингвистические конструкции (предлоги места, времени, понятия действия) опираются на модель мира, которую мозг уже построил с помощью зрения и движения за миллионы лет до появления первого слова.

🎓 Искусство разрешимых задач 1:36:47

В завершение беседы Малик, воспитавший плеяду звезд в области AI, делится секретом успешного наставничества. Он считает, что главная роль профессора — привить студентам «вкус» к выбору правильных задач.

Ссылаясь на лауреата Нобелевской премии Питера Медавара, он определяет науку как «искусство разрешимого». Хорошая задача для исследования — это та, которая еще не решена, но у которой уже появилось «мягкое подбрюшье», куда можно нанести удар и совершить прорыв.

💬 Цитаты

«90% решения можно получить за день, 99% может занять пять лет, а 99,99% — не случиться за всю вашу жизнь.»

Джитендра Малик 06:39

«Восприятие всегда предназначено для того, чтобы направлять действие.»

Джитендра Малик 24:11

«Исследование — это искусство разрешимого.»

Джитендра Малик 13:38
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
Tabula rasa
Принцип обучения ИИ «с чистого листа», без предварительных знаний о мире.
Окклюзия
Ситуация в компьютерном зрении, когда один объект частично или полностью закрывает другой.
Филогенез
Процесс исторического (эволюционного) развития организмов или систем.
Реорганизация
Способность системы зрения объединять пиксели в отдельные смысловые сущности и объекты.
📊 Цифры
🗓 Хронология
  1. 1966 Сеймур Пейперт инициирует проект Summer Vision Project в MIT.
  2. 1980-е Эрнст Дикманс демонстрирует первые успехи в автономном вождении на шоссе.
  3. 2010 Малик начинает активно продвигать фреймворк трех «R» (Recognition, Reconstruction, Reorganization).
  4. 2012 Начало революции глубокого обучения (Deep Learning) в компьютерном зрении.
⚖️ Другая сторона
Искусственный интеллект Джитендра Малик Computer Vision Tesla Autopilot Deep Learning Facebook AI Research