Джитендра Малик: «Зрение развилось на 500 миллионов лет раньше языка»

В новом выпуске Lex Fridman Podcast известный популяризатор науки Лекс Фридман беседует с Джитендрой Маликом, профессором Калифорнийского университета в Беркли и одним из пионеров в области компьютерного зрения. Вдумчивый диалог охватывает путь технологии от первых сверхоптимистичных проектов 1960-х годов до современной революции глубинного обучения, обнажая скрытую сложность зрительного восприятия. Собеседники исследуют эволюционные корни зрения, уроки детского развития и фундаментальные вызовы, которые стоят перед создателями современных систем искусственного интеллекта.

👁️ Сложность компьютерного зрения и иллюзия простоты 3:20

В 1966 году Сеймур Пейперт из Массачусетского технологического института (MIT) опубликовал проект под названием «Летний проект по зрению» (Summer Vision Project). Предполагалось, что группа из примерно десяти студентов сможет за одно лето полностью решить основные задачи компьютерного зрения.

По мнению Джитендры Малика, эта историческая недооценка сложности проблемы напрямую связана с тем, что человеческое зрение работает в основном на подсознательном или неосознанном уровне. Эта кажущаяся легкость восприятия создает обманчивое впечатление, будто алгоритмы зрения легко реализовать на компьютере.

Профессор подчеркивает, что при решении математических теорем или игре в шахматы трудность очевидна, так как активизируется сознательное мышление человека. Однако в нейробиологии известно, что огромная часть коры головного мозга приматов отведена именно под визуальную обработку информации.

Джитендра Малик формулирует это явление как «ловушку успешного первого шага»:

«Существует множество задач в области зрения, где получить 50% решения можно за одну минуту, дойти до 90% — за день, достижение 99% может занять пять лет, а получение 99,99% может не случиться и за всю вашу жизнь».

В отличие от специалистов по компьютерному зрению, исследователи в области обработки естественного языка (NLP), как считает гость, ведут себя более осторожно, интуитивно понимая необходимость глубокого семантического анализа текстов.

Исторически в литературе по человеческому зрению выделяли сенсацию, восприятие и когнитивные процессы, однако Малик называет эти разделения искусственными, утверждая, что зрительная задача непрерывна на всех уровнях обработки данных.

🚗 Автономное вождение и ловушка крайних случаев 10:07

Обсуждая современные коммерческие системы автономного вождения, Лекс Фридман приводит в пример систему Autopilot от Tesla, развиваемую Илоном Маском и Андреем Карпати, которая опирается исключительно на зрение через сеть камер с архитектурой HydraNet.

Джитендра Малик выражает определенный пессимизм относительно скорого появления полностью автономного вождения (Level 5). Его скепсис основан на существовании тех самых 0,01% пограничных случаев (edge cases), требующих сложного когнитивного анализа ситуации на дороге.

Как отмечает исследователь, базовое автономное движение, например, в условиях автомагистрали (шоссе), было успешно продемонстрировано еще в 1980-х годах Эрнстом Дикманнсом в Мюнхене, а затем развивалось в Карнеги-Меллон, Беркли и Стэнфорде.

Главная сложность кроется в непредсказуемой городской среде. По мнению Малика, восприятие обязано строить прогностические модели поведения других агентов.

В качестве примера ученый упоминает личный опыт: система безопасности его собственного автомобиля Tesla однажды продемонстрировала некорректную реакцию из-за неспособности предсказать действия скейтбордиста. Алгоритм классифицировал объект по шаблону обычного пешехода, что оказалось критической ошибкой, ведь траектории движения скейтбордистов радикально отличаются.

Профессор указывает на фундаментальное различие между обучением человека и ИИ. Современные нейросети используют подход tabula rasa (обучение с чистого листа) на колоссальных массивах размеченных данных.

В то же время 16-летний подросток, приходя в автошколу, уже является полноценным «визуальным гением». К двум годам человеческий ребенок благодаря наблюдениям уже прекрасно понимает трехмерность мира, окклюзию (перекрытие объектов) и базовые законы интуитивной физики. В автошколе он учится лишь контролю управления и пониманию дорожных паттернов, а не восприятию мира с нуля.

🧠 Вычислительная мощность мозга и биологический стиль 21:01

Джитендра Малик возвращается к тезису, который он развивает уже более двадцати лет: сравнению биологических и кремниевых вычислителей. Биологические нейроны работают значительно медленнее транзисторов, переключающихся за наносекунды, но выигрывают за счет колоссального количества элементов и высочайшей плотности связей.

Опираясь на расчеты футуролога Ханса Моравека, сделанные в 1990-х годах, профессор соглашается, что современные графические процессоры (GPU) образца 2020-х годов вплотную приблизились к вычислительной мощности человеческого мозга.

Тем не менее стиль этих вычислений принципиально иной. Архитектура современных видеокарт требует огромного количества электроэнергии, в то время как человеческий мозг функционирует при минимальном потреблении энергии, оставаясь чрезвычайно энергоэффективным.

🔄 Эволюционная связь восприятия и действия 23:16

Философский взгляд на компьютерное зрение требует понимания его первопричин. По словам Джитендры Малика, в биологических системах восприятие никогда не существует изолированно — его фундаментальная цель заключается в том, чтобы направлять действие.

Первые многоклеточные организмы Кембрийского периода, жившие около 500 миллионов лет назад, развили зрение параллельно со способностью передвигаться. Движение помогало находить пищу и избегать хищников, а зрительная система служила для этого главным навигатором.

Со временем зрительный аппарат человека гиперэволюционировал, что позволяет нам сегодня использовать его для абстрактных задач — например, оценки эстетической ценности живописи.

Лекс Фридман развивает этот тезис, полушутя отмечая, что современная капиталистическая экономика тоже завязана на действии: просмотр фильмов на платформе Netflix через систему восприятия в конечном итоге приводит к действию в виде продления подписки и траты денег потребителем.

🎬 От статичных изображений к долгосрочному пониманию видео 29:12

Исторически сообщество компьютерного зрения сосредоточилось на анализе статичных картинок, отодвинув видео на второй план. Джитендра Малик объясняет это жесткими техническими ограничениями прошлых десятилетий.

В 1970–1990-х годах исследователям катастрофически не хватало вычислительной мощности, оперативной памяти и емкости жестких дисков. Именно поэтому ученые шли на экстремальные компрессии: например, выделяли контуры (границы объектов) на изображениях размером 256 на 256 пикселей, а всю остальную информацию о градиентах серого просто выбрасывали.

Сегодня, когда сверточные нейросети (ConvNets) обрабатывают массивы данных без прежних ограничений, видео все еще остается малоизученной областью. Профессор делится эмпирическим наблюдением:

«Признание видео на сегодняшний день отстает от распознавания статических объектов примерно на 10 лет».

Точность классификации действий на сложных наборах видеоданных колеблется в районе 30%, что сопоставимо со слабыми результатами распознавания объектов в 2009 году.

Краткосрочные видеоклипы успешно обрабатываются с помощью 3D-сверток, но долгосрочное понимание (long-form video understanding) буксует. Для его реализации необходим возврат к концепциям ИИ 1970-х годов — фреймам, скриптам и психологическим «схемам» (динамическим сценариям вроде посещения ресторана).

Малик убежден, что эти схемы ИИ должен не получать в виде готового жесткого кода, а извлекать самостоятельно через наблюдения, подобно тому как ребенок формирует концепт ресторана после 10 визитов с родителями.

👶 Уроки детского развития для искусственного интеллекта 37:45

В финале своей знаменитой статьи 1950 года «Вычислительная техника и интеллект» Алан Тьюринг предложил вместо симуляции разума взрослого человека создать программу, имитирующую разум ребенка, способного учиться.

Малик полностью разделяет эту позицию, ссылаясь на знаковую работу психологов Линды Смит и Майкла Гассера о шести уроках, которые ИИ может перенять у детей (мультимодальность, инкрементальность, физическое воплощение, исследование, социальное взаимодействие, использование языка).

Мультимодальность дает мощнейший сигнал самообучения без участия человека. Когда ребенок крутит в руках мяч, он одновременно получает спарсенный тактильный сигнал от кожи пальцев и визуальный сигнал от сетчатки. Мозг сопоставляет эти разные пространства активаций, выстраивая точную кросс-калибровочную модель трехмерного мира. То же касается синхронизации звука и картинки при падении объектов.

Для преодоления барьера между простой корреляцией и истинной причинно-следственной связью (о важности которой много говорит ученый Джуда Перл) необходимы активные эксперименты в физическом мире. Ребенок постоянно проводит то, что в медицине называют рандомизированными контролируемыми исследованиями — двигает предметы, проверяя реакцию среды.

В связи с этим Джитендра Малик возлагает большие надежды на развитие фотореалистичных и физически точных симуляторов, таких как платформа Habitat, созданная его командой в Facebook AI Research.

🔺 Три «R» компьютерного зрения и глубинное обучение 57:07

Джитендра Малик предлагает структурировать компьютерное зрение через триаду фундаментальных процессов, которую он называет тремя «R»:

Recognition (Распознавание) — присвоение меток объектам на изображении, от конкретной породы собак до абстрактного класса «животное».
Reconstruction (Реконструкция) — задача обратного рендеринга (inverse graphics), восстановление трехмерной структуры, текстуры и положения объектов по двумерным пикселям.
Reorganization (Реорганизация) — перцептивная организация пикселей в единые обособленные сущности, где важным элементом выступает сегментация.

В рамках этой концепции сегментация (выделение контуров объектов без обязательного знания их названий) служит критически важной основой для обучения с меньшим уровнем контроля (weak supervision). Если ребенок уже умеет мысленно отделять объект (например, кошку) от фона как единое физическое тело, то, когда мать произносит слово «кошка», ему требуется минимальное усилие, чтобы связать лингвистический маркер с визуальной сущностью.

Малик отмечает, что современное глубинное обучение пошло по пути глубоких полносвязных сетей прямого распространения (например, ResNet с 50 слоями), работающих исключительно «снизу вверх» (от пикселей к метке).

Биологическое зрение устроено иначе: оно задействует гораздо более мелкие сети (около 7 слоев от сетчатки до высших отделов), но компенсирует это мощными механизмами обратной связи (feedback), возвращая когнитивные ожидания на нижние уровни для разрешения визуальных двусмысленностей.

🗺️ Прогресс через эволюцию человека и фундаментальные проблемы 1:08:32

В научном споре о природе человеческого разума Джитендра Малик занимает жесткую позицию: зрительное восприятие фундаментально и эволюционно предшествует языку. Вопреки мнению лингвиста Ноама Хомского, считающего язык ядром когнитивных способностей, профессор напоминает о временных масштабах эволюции:

Зрительные системы возникли 500 миллионов лет назад.
Первые прямоходящие гоминиды (такие как австралопитек Люси) появились около 3 миллионов лет назад, освободив руки для манипуляции предметами.
Уникальный человеческий язык развился значительно позже на базе уже сформировавшегося пространственного интеллекта (spatial intelligence).

Все лингвистические конструкции пространства и времени опираются на этот древний фундамент восприятия и действия. По этой причине Малик критикует классический тест Тьюринга 1950 года, считая, что создание текстовых чат-ботов уводит исследователей в сторону простых фокусов имитации.

Вместо этого он предлагает оценивать ИИ по комплексу из десяти разнородных задач: от навигации и помощи слепым в реальном мире до способности прочитать художественный роман и ответить на любые контекстные вопросы по его сюжету.

Среди главных нерешенных «проблем Гильберта» в компьютерном зрении ученый выделяет две: долгосрочное понимание видео с точки зрения намерений агентов и извлечение честной 3D-структуры из одного кадра без искусственного навязывания готовых CAD-моделей в процессе обучения.

При этом гость готов пожертвовать интерпретируемостью (explainability) алгоритмов ради их эффективности, напоминая, что люди и сами являются «черными ящиками» друг для друга, способными лишь постфактум придумывать убедительные истории о мотивах своих решений.

🔮 Будущее интеллекта, экзистенциальные риски и наставничество 1:24:52

На вопрос Лекса Фридмана о достижении искусственного интеллекта человеческого уровня (AGI) Джитендра Малик дает двойственный ответ: теоретически это возможно, но в ближайшие 20 лет этого точно не произойдет. Профессор использует знаменитую классификацию Дональда Рамсфелда: если в робототехнике и зрении мы имеем дело с «известными неизвестными» (мы понимаем архитектуру проблем), то в вопросах высшего когнитивного анализа и понимания языка наука все еще бьется об «неизвестные неизвестные».

Малик признается, что глубинное обучение превзошло его ожидания образца 2010 года. Математическая теория гарантировала работу выпуклой оптимизации, но то, что градиентный спуск будет стабильно находить отличные решения в избыточно параметризованных невыпуклых системах с миллиардами переменных, стало колоссальным сюрпризом для научного сообщества. Однако он считает необоснованными панические страхи перед AGI, которые затмевают реальные угрозы систем ИИ сегодняшнего дня.

Реальная опасность, по мнению профессора, кроется не в гипотетическом сверхразуме будущего, а в несовершенных алгоритмах, развернутых прямо сейчас:

Алгоритмы автоматического отбора кандидатов на интервью или медицинские диагностические системы могут содержать скрытые дискриминационные искажения (biases).
Ошибки «глупого» автономного транспорта уже приводят к трагедиям, как в случае смертельного наезда беспилотника Uber на пешехода в Аризоне.
Рекомендательные алгоритмы Twitter, Facebook и YouTube масштабно управляют распределением идей и новостей, фактически формируя мировоззрение миллиардов людей, что уже можно назвать проявлением распределенного сверхразума.

Завершая беседу размышлениями о своей 35-летней карьере в Беркли и менторстве над ведущими учеными мира, Малик скромно отмечает, что главный секрет наставничества — это развитие научного вкуса.

Ссылаясь на нобелевского лауреата Питера Медавара и его книгу «Искусство растворимого», Джитендра Малик резюмирует, что великий ученый должен уметь находить не просто важные, а именно созревшие для решения задачи, нащупывая у «непокорного зверя проблемы его мягкое подбрюшье».