Человекоцентричный ИИ: от Кембрийского взрыва до управления роботами силой мысли

В финальной лекции курса CS231N Стэнфордского университета обсуждается переход от чисто алгоритмического подхода к ИИ к «человекоцентричной» парадигме. Профессор Фей-Фей Ли анализирует путь компьютерного зрения — от эволюционного взрыва 540 миллионов лет назад до современных систем, способных понимать социальные паттерны и помогать в реанимации. Основной акцент делается на том, как ИИ может дополнять человеческие возможности, уважая приватность и этические ценности.

👁️ От Кембрийского взрыва до глубокого обучения 1:05

История зрения началась задолго до появления компьютеров. По словам профессора, около 540 миллионов лет назад трилобиты развили первые светочувствительные клетки, что спровоцировало «эволюционную гонку вооружений». Животные либо адаптировались, либо вымирали, что привело к резкому скачку биоразнообразия, известному как Кембрийский взрыв. Сегодня зрение остается основной сенсорной системой для человека, используемой во всем: от выживания до обучения.

В области технологий путь был не менее тернист:

1960-е: Проект «Summer Vision» — попытка за одно лето воссоздать зрительную систему человека силами нескольких студентов.
1970–1990-е: Эра «частей и конфигураций», вдохновленная психологией. Ученые пытались строить объекты из геометрических примитивов, но математическая красота не дала практических результатов.
Начало 2000-х: Появление статистического машинного обучения, объединившего программирование и вероятность. На первый план вышли такие инструменты, как Bayes nets и SVM (Support Vector Machines).

Переломным моментом стало понимание масштаба. Психолог Ирв Бидерман предположил, что к шести годам ребенок распознает от 30 000 до 100 000 категорий объектов. Это легло в основу проекта ImageNet, который к 2012 году содержал 22 000 классов и более 15 миллионов изображений. Именно тогда конвергенция больших данных, нейросетей (CNN) и вычислительной мощности GPU ознаменовала рождение современного глубокого обучения.

🖼️ Больше, чем просто этикетки: понимание контекста 15:05

Современный ИИ не должен просто называть объекты. Профессор подчеркивает: если на фото человек и лама, их простая идентификация не объясняет суть происходящего. Важны взаимосвязи.

В качестве ключевых вех в понимании сцен Ли выделяет следующие работы:

Графы сцен (Scene Graphs): Работа Ранджея Кришны, где объекты представляются узлами, а их отношения — ребрами графа. Это позволило реализовать «zero-shot learning» для необычных ситуаций, например, для распознавания лошади в шляпе, даже если таких примеров не было в обучающей выборке.
Генерация описаний: Тезисы Андрея Карпатого и Джастина Джонсона по «Dense Captioning» (плотному аннотированию), которые научили машины рассказывать истории по изображениям.
Динамические сцены: Переход к видео, где камера и актеры постоянно движутся. Ли утверждает, что понимание активности в динамике (Multi-actor activity understanding) до сих пор остается нерешенной задачей, критически важной для робототехники.

🙈 Видеть то, что недоступно человеку 23:37

ИИ может превосходить человека в узких задачах, становясь «суперчеловеком». Например, в мелкозернистой классификации (fine-grained categorization). Обычный человек не отличит тысячи видов птиц или моделей машин, а ИИ — может.

Один из представленных кейсов — анализ социальной структуры общества через автомобили. Исследователи проанализировали изображения Google Street View из сотен городов США. Оказалось, что распределение моделей машин в районе коррелирует с:

Уровнем образования жителей;
Средним доходом домохозяйств;
Паттернами голосования на выборах.

Однако у человека есть и биологические ограничения, такие как «слепота к изменениям» (change blindness) или ограниченность внимания. Профессор напоминает, что медицинские ошибки являются третьей ведущей причиной смерти в США. В операционных ИИ может использоваться как «вторая пара глаз» для отслеживания инструментов и марли, чтобы они случайно не остались в теле пациента.

🔒 Приватность как технический вызов 33:34

Развитие систем наблюдения в медицине сталкивается с этической дилеммой: как помогать, не нарушая приватность? Профессор описывает гибридный подход, сочетающий «железо» и софт:

Специальные линзы: Разработка лаборатории Карла Вондрока — физический фильтр на камере, который размывает лица и тела до неузнаваемости еще на этапе захвата света.
Алгоритмическая обработка: Софт извлекает информацию о движении (например, падение пациента или мытье рук врачом), не имея доступа к детальным биометрическим данным.

🤖 Робототехника и человеческие ценности 38:32

Ли оспаривает популярный страх перед тем, что «роботы заберут работу». По ее мнению, в условиях старения населения и нехватки медсестер ИИ должен не заменять, а дополнять (augment) человеческий труд.

Важнейшим проектом в этой области является BEHAVIOR — бенчмарк для обучения роботов повседневным делам. Вместо того чтобы навязывать роботам задачи, ученые провели опрос 1400 человек о том, в чем им нужна помощь:

Люди хотят: Помощь в чистке туалетов, уборке полов и стирке.
Люди НЕ хотят: Чтобы роботы покупали за них обручальные кольца, играли в сквош или готовили детскую смесь.

Для обучения этим навыкам была создана симуляция на базе NVIDIA Omniverse, включающая 1000 домашних задач и 10 000 3D-объектов с реалистичной физикой (прозрачность, деформируемость, температура).

🧠 Будущее: управление силой мысли 1:01:27

В финале лекции был продемонстрирован эксперимент на стыке нейробиологии и ИИ. Студент в неинвазивной EEG-шапочке отдавал команды роботу исключительно силой мысли. Роботизированная рука, предварительно обученная базовым действиям, смогла приготовить японское блюдо, интерпретируя электрические сигналы мозга. По мнению Ли, эта технология в будущем станет спасением для полностью парализованных пациентов.

Профессор завершает курс тезисом: ИИ — это мощный инструмент, который может как усилить наши возможности, так и масштабировать наши предубеждения. Поэтому commit (обязательство) исследователей должен заключаться в том, чтобы направлять развитие технологий на благо человечества.