«Ловушка первого шага»: почему компьютерное зрение сложнее, чем кажется

Джитендра Малик — один из признанных патриархов современного компьютерного зрения, чьи работы сформировали облик этой дисциплины задолго до революции глубокого обучения. В беседе с Лексом Фридманом он размышляет о том, почему задача, казавшаяся в 1966 году делом одного студенческого лета, до сих пор остается нерешенной, и как путь к истинному интеллекту лежит через понимание биологии и развития ребенка.

👁️ Иллюзия простоты: наследие 1966 года 3:19

История компьютерного зрения как академической дисциплины часто отсчитывается от 1966 года, когда Сеймур Пейперт из MIT запустил проект «Summer Vision Project». Идея заключалась в том, чтобы группа из десяти студентов за одно лето решила основные задачи зрения: сегментацию объектов и описание сцены. По мнению Джитендры Малика, такая колоссальная недооценка сложности проблемы была неизбежна.

Основная причина кроется в биологическом устройстве человека:

Визуальная обработка у людей происходит подсознательно и практически без усилий.
В отличие от игры в шахматы или доказательства теорем, где трудность осознается мозгом, зрение кажется нам «бесплатным».
При этом огромная часть коры головного мозга приматов выделена именно под визуальные задачи.

Джитендра Малик описывает это явление как «ловушку успешного первого шага»: во многих задачах зрения можно достичь 50% успеха за минуту, 90% — за день, но последние доли процента (99.99%) могут не поддаться исследователям в течение всей жизни.

🚗 Пессимизм в отношении беспилотников и «проблема 0.01%» 9:02

Обсуждая текущие успехи в области автономного вождения, в частности систему Tesla Autopilot, Малик выражает сдержанный пессимизм относительно полной автономии в ближайшем будущем. Он считает, что вождение на шоссе — задача вполне решаемая, что было доказано еще в 80-х и 90-х годах работами Эрнста Дикманса и команд из Беркли и CMU. Однако реальный мир полон критических «краевых случаев» (edge cases).

Гость приводит пример из личного опыта владения Tesla: система не смогла корректно предсказать поведение скейтбордиста, поскольку её модель предсказания была настроена на типичных пешеходов. По мнению Малика, для безопасного вождения недостаточно просто распознавать объекты — необходимо обладать «когнитивным пониманием» их целей и намерений.

Основные аргументы Малика против быстрой реализации Full Self-Driving:

Погрешность: Ошибка в поиске картинок Google не критична, но ошибка на скорости 100 км/ч смертельна.
Отсутствие здравого смысла: Роботам не хватает накопленного за годы жизни понимания физики и поведения агентов.
Неэффективность данных: Современным системам нужно в тысячи раз больше данных, чем человеку, чтобы научиться элементарным вещам.

👶 Чему ИИ может научиться у ребенка 16:13

Джитендра Малик критикует современный подход tabula rasa (обучение с чистого листа), используемый в глубоком обучении. Когда 16-летний подросток приходит в автошколу, он уже является «визуальным гением». К двум годам ребенок уже понимает трехмерность мира, окклюзию (перекрытие объектов), основы физики и динамику тел.

Малик выделяет несколько принципов обучения ребенка, которые следует внедрить в ИИ:

Мультимодальность: Ребенок одновременно трогает предмет (тактильный сигнал) и видит его, что создает мощный сигнал самообучения без участия учителя.
Активное исследование: Ребенок не просто смотрит видеопоток, он манипулирует объектами, ставя «контролируемые эксперименты» для установления причинно-следственных связей.
Воплощенность (Embodiment): Интеллект неразрывно связан с наличием физического тела и взаимодействием с материей, трением и гравитацией.

Ученый полагает, что мы должны создавать симуляционные среды (например, проект Habitat от Facebook AI Research), которые будут реалистичны не только визуально, но и физически.

📐 Три «R» компьютерного зрения 57:07

Для структурирования задач в области Малик предлагает фреймворк из трех составляющих, которые должны работать в единой связке:

Recognition (Распознавание): Присвоение меток (это собака, это стул). Самая простая и наиболее проработанная сегодня часть.
Reconstruction (Реконструкция): Создание трехмерной модели мира по двумерным изображениям («обратная графика»).
Reorganization (Реорганизация): Способность выделять в потоке пикселей отдельные сущности и объекты, понимать их границы и структуру.

По словам Малика, в биологических системах эти процессы не разделены: мы видим обратные связи, где высокоуровневые знания (когниция) постоянно корректируют низкоуровневые ощущения. В искусственных сетях (например, ResNet-50) процесс обычно идет строго в одну сторону — от пикселей к метке, что делает их менее гибкими по сравнению с мозгом, который использует всего около 7 слоев обработки, но с мощным фидбеком.

🗣️ Язык как надстройка над зрением 1:09:00

Малик вступает в заочную дискуссию с Ноамом Хомским, утверждая, что зрение гораздо фундаментальнее языка. С точки зрения эволюции (филогенеза), зрение появилось около 500 миллионов лет назад в Кембрийский период, в то время как язык — лишь несколько сотен тысяч лет назад.

По мнению гостя, язык строится на субстрате пространственного интеллекта. Все человеческие лингвистические конструкции (предлоги места, времени, понятия действия) опираются на модель мира, которую мозг уже построил с помощью зрения и движения за миллионы лет до появления первого слова.

🎓 Искусство разрешимых задач 1:36:47

В завершение беседы Малик, воспитавший плеяду звезд в области AI, делится секретом успешного наставничества. Он считает, что главная роль профессора — привить студентам «вкус» к выбору правильных задач.

Ссылаясь на лауреата Нобелевской премии Питера Медавара, он определяет науку как «искусство разрешимого». Хорошая задача для исследования — это та, которая еще не решена, но у которой уже появилось «мягкое подбрюшье», куда можно нанести удар и совершить прорыв.