# Эхсан Адели: «Компьютерное зрение станет монитором жизненно важных показателей поведения»

Источник: https://www.youtube.com/watch?v=YcTytFL1Bc0
Канал: Stanford Online
Опубликовано: 30.09.2025

---

Современные технологии компьютерного зрения (Computer Vision, CV) прошли долгий путь от распознавания простых геометрических фигур до создания систем, способных спасать жизни и обеспечивать уход за пожилыми людьми. В рамках вебинара Stanford Online профессор Эхсан Адели, ведущий специалист в области ИИ и вычислительной нейробиологии, рассказал о том, как «бессмысленные пиксели» превращаются в значимые концепции и почему будущее ИИ лежит в плоскости «пространственного интеллекта».

## 🏛️ Эволюция компьютерного зрения: от края до генерации
[[JUMP:01:05]]

История компьютерного зрения неразрывно связана с нейробиологией. Эхсан Адели отмечает, что основы отрасли были заложены в ходе экспериментов Хьюбела и Визеля, показавших, как мозг детектирует границы объектов [04:53]. Пройдя через «зиму ИИ» в 80-х и доминирование геометрических моделей в 90-х, индустрия совершила качественный скачок в 2012 году.

Ключевые вехи развития отрасли по версии Адели:

*   **ImageNet (2012):** Создание гигантского набора данных стало катализатором. Архитектура AlexNet сократила количество ошибок распознавания почти вдвое за одну ночь, запустив взрыв глубокого обучения [06:48].
*   **Смена парадигм:** От сверточных нейронных сетей (CNN) и рекуррентных сетей (RNN) индустрия перешла к Трансформерам — архитектуре, которая сегодня является «двигателем» большинства достижений в области ИИ [10:15].
*   **Креативный скачок:** Современные генеративные модели (Diffusion, DALL-E) позволяют машинам не просто классифицировать мир, но и воображать его, создавая изображения по текстовым запросам, например, знаменитое «кресло-авокадо» [08:24].

По мнению Адели, современные смартфоны обладают большей вычислительной мощностью, чем системы, доставившие человека на Луну, однако сейчас эта мощь перенаправляется с «фотографий бранча» на решение фундаментальных проблем науки и медицины [02:02].

## 🏥 «Эмбиентный интеллект» в больницах: проект Stanford Hospital
[[JUMP:12:13]]

Одной из главных сфер применения CV является здравоохранение. Профессор Адели вводит понятие «эмбиентного интеллекта» (Ambient Intelligence) — системы умных сенсоров и алгоритмов, которые незаметно для персонала анализируют активность в клинике и реагируют на потребности пациентов [13:51].

В Стэнфордской больнице была внедрена система мониторинга в восьми палатах интенсивной терапии (ICU) [18:51]. Для этого использовались кастомные сенсоры, включающие:

*   Обычные RGB-камеры для визуального анализа;
*   Глубинные датчики (Depth sensors) для понимания геометрии пространства;
*   Тепловизоры (Thermal sensors) для мониторинга состояния без нарушения приватности [19:23].

Для анализа действий персонала и пациентов была разработана иерархическая система — **Clinical Behavioral Atlas (CBA)** [21:11]. Она позволяет разбивать сложные медицинские протоколы на атомарные действия. Например, система может автоматически проверить, соблюдаются ли меры профилактики падений (использование носков с защитой от скольжения) или правильно ли приподнято изголовье кровати [31:28].

Технической основой проекта стал бенчмарк **MOMA (Multi-Object Multi-Actor)**. В отличие от стандартных алгоритмов, MOMA распознает не просто «человека», а сложные взаимосвязи между несколькими участниками и объектами в кадре [26:57]. Адели утверждает, что такой подход позволяет проводить полностью пассивный анализ без необходимости ручного ввода данных врачами [32:57].

## 👵 Компьютерное зрение как замена носимым устройствам для пожилых
[[JUMP:34:23]]

Существует острая необходимость в технологиях для поддержки независимого проживания пожилых людей. Адели критикует текущие решения, основанные на носимых гаджетах: браслеты нужно постоянно заряжать, а пожилые люди часто забывают их надевать [35:50].

Компьютерное зрение предлагает бесконтактную альтернативу. В лаборатории Адели были разработаны методы для:

1.  **Анализа походки:** Детекция рисков падения и изменений в моторике [38:04].
2.  **Мониторинга сна:** Отслеживание паттернов без датчиков на теле [38:18].
3.  **Контроля питания:** Оценка уровня независимости человека по тому, как он ест и пьет [38:35].

Особое внимание уделяется ранней диагностике деменции и болезни Альцгеймера. Исследователи фокусируются на **нейропсихиатрических симптомах (NPS)**, которые могут проявляться за годы и даже десятилетия до официального диагноза [40:51]. По словам Адели, CV-системы могут фиксировать такие изменения, как апатия, депрессия или бесцельное хождение, которые пациенты часто забывают упомянуть на приеме у врача [43:03].

## 🛡️ Конфиденциальность: «слепые» линзы и локальные вычисления
[[JUMP:43:58]]

Вопрос приватности является критическим при установке камер в частных пространствах. Эхсан Адели описывает многоуровневый подход к защите данных:

*   **Локальная обработка (Edge Computing):** Видение команды профессора заключается в том, что данные не должны покидать устройство. Видео анализируется внутри сенсора, а в облако передаются только метаданные (например, отчет о состоянии здоровья), что исключает кражу визуальной информации хакерами [45:36].
*   **Оптическое искажение:** В лаборатории создали технологию специальных линз с искаженным профилем поверхности (Point Spread Function, PSF) [48:38]. Камера выдает изображение, которое выглядит как набор цветных пятен для человеческого глаза, но остается полностью понятным для обученного алгоритма [50:01].

Адели подчеркивает: цель не в том, чтобы следить за людьми, а в том, чтобы создать систему, которой можно доверять. При этом он признает, что уровень доверия и готовность к внедрению таких систем будут сильно различаться в зависимости от страны, культуры и конкретного человека [58:47].

## 🔮 Будущее: от лингвистического к пространственному интеллекту
[[JUMP:59:30]]

Отвечая на вопрос о следующем большом прорыве в ИИ, Эхсан Адели ссылается на мнение своей коллеги Фей-Фей Ли. Он утверждает, что нынешний бум ИИ (ChatGPT, Gemini) — это развитие «лингвистического интеллекта» [59:46].

Будущее же за **пространственным интеллектом (Spatial Intelligence)**. По мнению Адели, ИИ должен научиться:

*   Рассуждать в «пиксельном пространстве» [1:00:00];
*   Понимать физические взаимодействия и намерения людей в 3D-мире;
*   Обладать «воплощенным интеллектом» (Embodied Intelligence) для работы в робототехнике [1:01:09].

Технологии не заменят человеческую заботу, считает профессор, но они станут «монитором жизненно важных показателей поведения», которого у нас никогда не было раньше [43:16].