Заключительная лекция курса CS231N в Стэнфордском университете, организованная платформой Stanford Online, посвящена концепции антропоцентричного искусственного интеллекта (Human-Centered AI). Профессор Фей-Фей Ли (Fei-Fei Li) подводит итоги развития компьютерного зрения, рассматривая технологический прогресс через призму человеческого восприятия, эволюционной биологии и социальных ценностей. В материале подробно разбирается путь от базового распознавания объектов до создания умных больниц и роботов, управляемых силой мысли.
👁️ Эволюция зрения: от кембрийского взрыва к компьютерным алгоритмам 1:05
История зрительного восприятия началась в животном мире около 540 миллионов лет назад, когда древние трилобиты развили первые светочувствительные клетки. Как утверждает зоолог Эндрю Паркер, появление зрения спровоцировало «эволюционную гонку вооружений», в которой животные должны были либо адаптироваться, либо погибнуть. Этот процесс привел к взрывному росту видообразования, известному сегодня как кембрийский взрыв. До сих пор зрение остается ключевой сенсорной системой для большинства живых существ, включая человека, обеспечивая выживание, работу, обучение и социализацию.
В сфере ИТ попытки воссоздать эту систему начали предприниматься в 1960-х годах с проекта «Летнее зрение» (Summer Vision Project), организаторы которого рассчитывали силами нескольких студентов за лето построить значительную часть визуального аппарата. По словам лектора, авторы проекта сильно недооценили сложность задачи, что типично для истории ИИ, где долгосрочные цели кажутся ближе, чем они есть на самом деле. Тем не менее, технологии прошли огромный путь от систем беспиновного вождения до революции генеративного ИИ, где визуальное распознавание играет ведущую роль.
🧠 Часть 1: Создание ИИ, способного видеть как человек 4:28
🧍 Скорость человеческого восприятия и распознавание объектов
Человеческая зрительная система обладает поразительной эффективностью. Эксперименты полувековой давности доказали, что при просмотре незнакомого видео на частоте 10 Гц (когда каждый кадр отображается всего 100 миллисекунд), человеческий глаз без труда фиксирует целевой объект, например человека, в хаотичной сцене. Исследования нейрофизиологов на рубеже веков подтвердили, что категоризация сложных объектов занимает у мозга всего 150 миллисекунд после появления стимула, что фиксируется электрическими сигналами ЭЭГ. Эволюция выделила в мозге специализированные зоны для распознавания лиц, мест и частей тела.
Для компьютерного зрения распознавание объектов стало фундаментальным блоком. Математически это невероятно сложная задача из-за бесконечного числа вариаций освещения, текстуры, заслонения (окклюзии), ракурсов и масштаба.
📊 Эволюция подходов: от геометрии к большим данным и ImageNet
До эпохи глубокого обучения существовало две основные волны развития систем распознавания:
- Геометрический подход (1970–1990-е годы): инженеры пытались разложить объекты на предопределенные геометрические части и составить из них модели. Метод был математически красив, но не работал на практике.
- Статистическое машинное обучение (начало 2000-х): синергия программирования и статистики показала, что для генерализации нужно обучать параметры моделей — использовались случайные поля, байесовские сети, метод опорных векторов (SVM).
Новый прорыв был вдохновлен когнитивной психологией. Исследователь Ирв Бидерман предположил, что к 6–7 годам дети способны распознавать от 30 000 до 100 000 визуальных категорий (так называемое «число Бидермана»). Это наблюдение мотивировало команду Стэнфорда создать датасет ImageNet, содержащий более 15 миллионов изображений, распределенных по 22 000 классов объектов. В исторической точке конвергенции в 2012 году масштабные данные ImageNet объединились с архитектурой сверточных нейросетей (CNN) и мощностью двух графических процессоров (GPU), что ознаменовало рождение современного глубокого обучения.
🗺️ Понимание взаимосвязей: граф сцены и языковые описания
Просте присвоение меток объектам не дает полной картины. Как писал психолог Джереми Вулф, понимание естественных сцен требует кодирования взаимосвязей между объектами. На основе этой идеи Ранджай Кришна (Ranjay Krishna) в своей докторской диссертации разработал концепцию графа сцены (Scene Graph), где объекты являются узлами, а их связи и атрибуты — ребрами графа.
В рамках проекта Visual Genome ученые объединили графы сцен с текстовыми описаниями, что позволило реализовать zero-shot обучение (обучение без примеров) для необычных контекстов. Система смогла распознавать редкие сюжеты, например, «лошадь в шляпе» или «человек, сидящий на пожарном гидранте», комбинируя знания о привычных связях. Следующим шагом стало текстовое описание изображений (image captioning), реализованное в диссертации Андрея Карпатого (Andrej Karpathy) на стыке CNN и сетей LSTM в период с 2015 по 2018 год, а также алгоритмы плотного описания Джастина Джонсона (Justin Johnson). Сегодня динамические сцены остаются нерешенной проблемой: понимание активности множества актеров в видео критически важно для интеграции сервисных роботов в нашу жизнь.
🔍 Часть 2: ИИ на территории «невидимого» для человека 23:37
🚗 Сверхчеловеческие способности и социальный анализ
ИИ способен превзойти человека в задачах мелкозернистой классификации (fine-grained categorization), где обычный человек теряется — например, в различении тысяч видов птиц, динозавров или модификаций автомобилей. Созданный в лаборатории классификатор автомобилей, определяющий марку, модель и год выпуска машин (выпускаемых тысячами конфигураций с 1970-х годов), был применен к снимкам Google Street View в сотнях американских городов. Анализ автопарка стал «линзой» для изучения социальных паттернов: типы машин продемонстрировали строгую корреляцию с уровнем образования жителей, их доходами, экологическими привычками и даже электоральными предпочтениями на выборах.
🏥 Преодоление человеческой слепоты и медицинские ошибки
Человеческое внимание имеет жесткие лимиты, что подтверждают тест Струпа (конфликт восприятия цвета и написания слова) и феномен «слепоты к изменениям» (change blindness), когда люди долго не замечают исчезновение крупной детали, например, двигателя самолета, на чередующихся картинках. В реальной жизни эти ограничения ведут к трагедиям: по приведенным данным, медицинские ошибки занимают третье место среди причин смертности в системе здравоохранения США. В хирургии до сих пор полагаются на ручной учет инструментов; если игла, шовный материал или марлевый тампон теряются, операцию приходится останавливать в среднем на час, подвергая пациента риску инфекций и кровотечений. Лаборатория Стэнфорда продемонстрировала прототип ИИ-системы, способной автоматически пересчитывать марлевые салфетки в операционной для предотвращения таких инцидентов.
Другая проблема — иллюзии и врожденные искажения человеческого зрения, например, одинаковая яркость серых квадратов А и B на шахматной доске в тесте Эдельсона. Мозг эволюционно запрограммирован домысливать тени и физику освещения. Подобные когнитивные искажения и предвзятость данных могут переноситься в ИИ. Профессор Фей-Фей Ли напомнила, что ранние алгоритмы распознавания лиц демонстрировали дискриминацию по цвету кожи и полу, создавая опасные прецеденты для беспилотного транспорта и медицины. Спикер выразила удовлетворение тем, что к 2025 году индустрия и академия начали активно решать проблему предвзятости ИИ.
🔒 Защита конфиденциальности в умных камерах
При интеграции ИИ в палаты пациентов возникает конфликт с приватностью. Стандартные методы вроде размытия или снижения размерности данных часто стирают полезную информацию о действиях человека. Команда профессора Карла Вондрика предложила гибридное аппаратно-программное решение: физическую линзу для камеры, которая аппаратно фильтрует свет определенным образом. Получаемое изображение полностью скрывает лицо и черты тела, защищая конфиденциальность, но сохраняет достаточный оптический поток для программного распознавания движений и критических ситуаций.
🦾 Часть 3: ИИ на службе человечества — от умных клиник к робототехнике 38:17
👥 Рынок труда и концепция аугментации
Главный источник общественной тревоги вокруг ИИ — угроза рынку труда. Профессор признает, что отрицать трансформацию рабочих мест бессмысленно: любой технологический сдвиг в истории протекал болезненно. При этом в последние два года генеративный ИИ нанес основной удар не по физическому труду, а по «белым воротничкам» — программистам и офисным аналитикам.
С другой стороны, мир сталкивается с глобальным дефицитом кадров в сфере ухода за пожилыми людьми и хронически больными. Растущая продолжительность жизни требует огромного количества персонала, которого физически нет: американские больницы страдают от массового оттока медсестер. По мнению лектора, вместо концепции «замены» человека роботами (replace) индустрия должна сфокусироваться на «дополнении» и расширении возможностей (augment).
🧼 Умное пространство: проект гигиены рук и мониторинг в реанимации
Под руководством исследователей Ихсана и Зинга развивается направление Ambient Intelligence (пространственного интеллекта) для медицины. Внедряются два ключевых проекта:
- Контроль гигиены рук: Внутрибольничные инфекции уносят в США в три раза больше жизней ежегодно, чем автомобильные аварии. Прошлые решения (RFID-метки на бейджах врачей возле раковин) давали ложноположительные результаты. Разработанная система на базе сенсоров глубины (передающих только силуэты ради приватности) и ИИ-классификатора точно определяет, помыл ли сотрудник руки. Точность алгоритма оказалась выше и стабильнее показателей четырех живых аудиторов.
- Мониторинг отделений интенсивной терапии (ОИТ): На реанимации уходит около 1% ВВП США. Важнейший этап восстановления пациентов в ОИТ — ранняя мобилизация (движение). Совместно с госпиталем Intermountain в Юте была развернута система датчиков, отслеживающая 4 типа критических перемещений: подъем с кровати, укладывание в кровать, подъем с кресла и присаживание в кресло.
Аналогичные системы помогают пожилым людям в рамках концепции aging in place (старение дома). Термальные камеры и датчики подвижности позволяют выявлять ранние признаки инфекций, анализировать качество сна и режим питания без нарушения приватности.
🤖 Воплощенный ИИ: роботы в реальном мире и управление мыслями 47:33
🗺️ Обучение роботов в открытом мире
Воплощенный ИИ (Embodied AI) и робототехника замыкают цикл между восприятием и действием. Текущие роботы остаются медленными, неуклюжими и жестко ограниченными узкими лабораторными сценариями. Чтобы исправить это, исследователи применили связку современных больших языковых моделей (LLM) и визуально-языковых моделей (VLM) для выполнения открытых текстовых инструкций в реальном мире.
Когда роботу поступает команда, например, «открой верхний ящик, но аккуратно, не задень вазу», LLM компилирует её в исполняемый программный код. Параллельно VLM сканирует сцену, обнаруживает ручку ящика и вазу, после чего строит карту планирования движений в виде тепловой карты (heat map) с положительными и отрицательными весами. Это избавило систему от необходимости предварительного обучения в закрытой среде и позволило выполнять сложные манипуляции с объектами, уборку стола, подметание пола и адаптацию к физическим помехам на ходу.
🏠 Бенчмарк BEHAVIOR: 1000 бытовых задач
Для создания масштабных стандартов обучения роботов лаборатория Стэнфорда разработала бенчмарк BEHAVIOR. Вместо случайного выбора задач ученые провели антропоцентрический опрос 1400 человек на основе правительственных баз данных о труде. Опрос выявил четкие этические и социальные границы: люди хотят, чтобы роботы мыли туалеты, полы и складывали белье, но категорически против того, чтобы машины готовили им завтрак, выбирали обручальные кольца, смешивали детское питание или играли за них в сквош.
На основе предпочтений была отобрана 1000 бытовых задач. В виртуальной среде были воссозданы 3D-копии 50 реальных объектов (ресторанов, офисов, квартир) и более 10 000 физически точных 3D-моделей предметов с поддержкой деформации и сочленений. Платформа разработана совместно с подразделением NVIDIA Omniverse и поддерживает симуляцию жидкостей, тканей и теплопередачи.
Как признает лектор, современные роботизированные алгоритмы без использования привилегированной информации пока показывают нулевую (0%) эффективность на бенчмарке BEHAVIOR при слепом тестировании. Но для студентов это открывает колоссальное поле для исследований. С помощью цифровых двойников ученые исследуют перенос навыков из симуляции в реальность (sim-to-real transfer), а также тестируют безопасные среды для слабовидящих людей.
🧠 Мысленный контроль: кулинария по сигналам ЭЭГ
В финале лекции была продемонстрирована одна из самых футуристических разработок лаборатории, созданная совместно с медиками и психологами: неинвазивное управление роботом с помощью мозговых волн.
Студент в шапочке с электродами ЭЭГ исключительно силой мысли отдавал команды роботизированному манипулятору, который полностью приготовил японское блюдо. Паттерны мыслей («поднять», «опустить», «переместить») были предварительно обучены на сигналах электрической активности мозга. По заявлению лектора, данная технология имеет колоссальное медицинское будущее и нацелена на возвращение независимости тяжело парализованным пациентам. Робототехника и ИИ должны служить не заменой человечества, а его главным аугментационным инструментом.