Современные технологии компьютерного зрения (Computer Vision, CV) прошли долгий путь от распознавания простых геометрических фигур до создания систем, способных спасать жизни и обеспечивать уход за пожилыми людьми. В рамках вебинара Stanford Online профессор Эхсан Адели, ведущий специалист в области ИИ и вычислительной нейробиологии, рассказал о том, как «бессмысленные пиксели» превращаются в значимые концепции и почему будущее ИИ лежит в плоскости «пространственного интеллекта».
🏛️ Эволюция компьютерного зрения: от края до генерации 1:05
История компьютерного зрения неразрывно связана с нейробиологией. Эхсан Адели отмечает, что основы отрасли были заложены в ходе экспериментов Хьюбела и Визеля, показавших, как мозг детектирует границы объектов . Пройдя через «зиму ИИ» в 80-х и доминирование геометрических моделей в 90-х, индустрия совершила качественный скачок в 2012 году.
Ключевые вехи развития отрасли по версии Адели:
- ImageNet (2012): Создание гигантского набора данных стало катализатором. Архитектура AlexNet сократила количество ошибок распознавания почти вдвое за одну ночь, запустив взрыв глубокого обучения .
- Смена парадигм: От сверточных нейронных сетей (CNN) и рекуррентных сетей (RNN) индустрия перешла к Трансформерам — архитектуре, которая сегодня является «двигателем» большинства достижений в области ИИ .
- Креативный скачок: Современные генеративные модели (Diffusion, DALL-E) позволяют машинам не просто классифицировать мир, но и воображать его, создавая изображения по текстовым запросам, например, знаменитое «кресло-авокадо» .
По мнению Адели, современные смартфоны обладают большей вычислительной мощностью, чем системы, доставившие человека на Луну, однако сейчас эта мощь перенаправляется с «фотографий бранча» на решение фундаментальных проблем науки и медицины .
🏥 «Эмбиентный интеллект» в больницах: проект Stanford Hospital 12:13
Одной из главных сфер применения CV является здравоохранение. Профессор Адели вводит понятие «эмбиентного интеллекта» (Ambient Intelligence) — системы умных сенсоров и алгоритмов, которые незаметно для персонала анализируют активность в клинике и реагируют на потребности пациентов .
В Стэнфордской больнице была внедрена система мониторинга в восьми палатах интенсивной терапии (ICU) . Для этого использовались кастомные сенсоры, включающие:
- Обычные RGB-камеры для визуального анализа;
- Глубинные датчики (Depth sensors) для понимания геометрии пространства;
- Тепловизоры (Thermal sensors) для мониторинга состояния без нарушения приватности .
Для анализа действий персонала и пациентов была разработана иерархическая система — Clinical Behavioral Atlas (CBA) . Она позволяет разбивать сложные медицинские протоколы на атомарные действия. Например, система может автоматически проверить, соблюдаются ли меры профилактики падений (использование носков с защитой от скольжения) или правильно ли приподнято изголовье кровати .
Технической основой проекта стал бенчмарк MOMA (Multi-Object Multi-Actor). В отличие от стандартных алгоритмов, MOMA распознает не просто «человека», а сложные взаимосвязи между несколькими участниками и объектами в кадре . Адели утверждает, что такой подход позволяет проводить полностью пассивный анализ без необходимости ручного ввода данных врачами .
👵 Компьютерное зрение как замена носимым устройствам для пожилых 34:23
Существует острая необходимость в технологиях для поддержки независимого проживания пожилых людей. Адели критикует текущие решения, основанные на носимых гаджетах: браслеты нужно постоянно заряжать, а пожилые люди часто забывают их надевать .
Компьютерное зрение предлагает бесконтактную альтернативу. В лаборатории Адели были разработаны методы для:
- Анализа походки: Детекция рисков падения и изменений в моторике .
- Мониторинга сна: Отслеживание паттернов без датчиков на теле .
- Контроля питания: Оценка уровня независимости человека по тому, как он ест и пьет .
Особое внимание уделяется ранней диагностике деменции и болезни Альцгеймера. Исследователи фокусируются на нейропсихиатрических симптомах (NPS), которые могут проявляться за годы и даже десятилетия до официального диагноза . По словам Адели, CV-системы могут фиксировать такие изменения, как апатия, депрессия или бесцельное хождение, которые пациенты часто забывают упомянуть на приеме у врача .
🛡️ Конфиденциальность: «слепые» линзы и локальные вычисления 43:58
Вопрос приватности является критическим при установке камер в частных пространствах. Эхсан Адели описывает многоуровневый подход к защите данных:
- Локальная обработка (Edge Computing): Видение команды профессора заключается в том, что данные не должны покидать устройство. Видео анализируется внутри сенсора, а в облако передаются только метаданные (например, отчет о состоянии здоровья), что исключает кражу визуальной информации хакерами .
- Оптическое искажение: В лаборатории создали технологию специальных линз с искаженным профилем поверхности (Point Spread Function, PSF) . Камера выдает изображение, которое выглядит как набор цветных пятен для человеческого глаза, но остается полностью понятным для обученного алгоритма .
Адели подчеркивает: цель не в том, чтобы следить за людьми, а в том, чтобы создать систему, которой можно доверять. При этом он признает, что уровень доверия и готовность к внедрению таких систем будут сильно различаться в зависимости от страны, культуры и конкретного человека .
🔮 Будущее: от лингвистического к пространственному интеллекту 59:30
Отвечая на вопрос о следующем большом прорыве в ИИ, Эхсан Адели ссылается на мнение своей коллеги Фей-Фей Ли. Он утверждает, что нынешний бум ИИ (ChatGPT, Gemini) — это развитие «лингвистического интеллекта» .
Будущее же за пространственным интеллектом (Spatial Intelligence). По мнению Адели, ИИ должен научиться:
- Рассуждать в «пиксельном пространстве» ;
- Понимать физические взаимодействия и намерения людей в 3D-мире;
- Обладать «воплощенным интеллектом» (Embodied Intelligence) для работы в робототехнике .
Технологии не заменят человеческую заботу, считает профессор, но они станут «монитором жизненно важных показателей поведения», которого у нас никогда не было раньше .