Эхсан Адели: «Компьютерное зрение станет монитором жизненно важных показателей поведения»

Stanford Online 6,6 тыс. 1 ч 2 мин 4 мин 30.09.2025
Главное

Современные технологии компьютерного зрения (Computer Vision, CV) прошли долгий путь от распознавания простых геометрических фигур до создания систем, способных спасать жизни и обеспечивать уход за пожилыми людьми. В рамках вебинара Stanford Online профессор Эхсан Адели, ведущий специалист в области ИИ и вычислительной нейробиологии, рассказал о том, как «бессмысленные пиксели» превращаются в значимые концепции и почему будущее ИИ лежит в плоскости «пространственного интеллекта».

🏛️ Эволюция компьютерного зрения: от края до генерации 1:05

История компьютерного зрения неразрывно связана с нейробиологией. Эхсан Адели отмечает, что основы отрасли были заложены в ходе экспериментов Хьюбела и Визеля, показавших, как мозг детектирует границы объектов . Пройдя через «зиму ИИ» в 80-х и доминирование геометрических моделей в 90-х, индустрия совершила качественный скачок в 2012 году.

Ключевые вехи развития отрасли по версии Адели:

По мнению Адели, современные смартфоны обладают большей вычислительной мощностью, чем системы, доставившие человека на Луну, однако сейчас эта мощь перенаправляется с «фотографий бранча» на решение фундаментальных проблем науки и медицины .

🏥 «Эмбиентный интеллект» в больницах: проект Stanford Hospital 12:13

Одной из главных сфер применения CV является здравоохранение. Профессор Адели вводит понятие «эмбиентного интеллекта» (Ambient Intelligence) — системы умных сенсоров и алгоритмов, которые незаметно для персонала анализируют активность в клинике и реагируют на потребности пациентов .

В Стэнфордской больнице была внедрена система мониторинга в восьми палатах интенсивной терапии (ICU) . Для этого использовались кастомные сенсоры, включающие:

Для анализа действий персонала и пациентов была разработана иерархическая система — Clinical Behavioral Atlas (CBA) . Она позволяет разбивать сложные медицинские протоколы на атомарные действия. Например, система может автоматически проверить, соблюдаются ли меры профилактики падений (использование носков с защитой от скольжения) или правильно ли приподнято изголовье кровати .

Технической основой проекта стал бенчмарк MOMA (Multi-Object Multi-Actor). В отличие от стандартных алгоритмов, MOMA распознает не просто «человека», а сложные взаимосвязи между несколькими участниками и объектами в кадре . Адели утверждает, что такой подход позволяет проводить полностью пассивный анализ без необходимости ручного ввода данных врачами .

👵 Компьютерное зрение как замена носимым устройствам для пожилых 34:23

Существует острая необходимость в технологиях для поддержки независимого проживания пожилых людей. Адели критикует текущие решения, основанные на носимых гаджетах: браслеты нужно постоянно заряжать, а пожилые люди часто забывают их надевать .

Компьютерное зрение предлагает бесконтактную альтернативу. В лаборатории Адели были разработаны методы для:

  1. Анализа походки: Детекция рисков падения и изменений в моторике .
  2. Мониторинга сна: Отслеживание паттернов без датчиков на теле .
  3. Контроля питания: Оценка уровня независимости человека по тому, как он ест и пьет .

Особое внимание уделяется ранней диагностике деменции и болезни Альцгеймера. Исследователи фокусируются на нейропсихиатрических симптомах (NPS), которые могут проявляться за годы и даже десятилетия до официального диагноза . По словам Адели, CV-системы могут фиксировать такие изменения, как апатия, депрессия или бесцельное хождение, которые пациенты часто забывают упомянуть на приеме у врача .

🛡️ Конфиденциальность: «слепые» линзы и локальные вычисления 43:58

Вопрос приватности является критическим при установке камер в частных пространствах. Эхсан Адели описывает многоуровневый подход к защите данных:

Адели подчеркивает: цель не в том, чтобы следить за людьми, а в том, чтобы создать систему, которой можно доверять. При этом он признает, что уровень доверия и готовность к внедрению таких систем будут сильно различаться в зависимости от страны, культуры и конкретного человека .

🔮 Будущее: от лингвистического к пространственному интеллекту 59:30

Отвечая на вопрос о следующем большом прорыве в ИИ, Эхсан Адели ссылается на мнение своей коллеги Фей-Фей Ли. Он утверждает, что нынешний бум ИИ (ChatGPT, Gemini) — это развитие «лингвистического интеллекта» .

Будущее же за пространственным интеллектом (Spatial Intelligence). По мнению Адели, ИИ должен научиться:

Технологии не заменят человеческую заботу, считает профессор, но они станут «монитором жизненно важных показателей поведения», которого у нас никогда не было раньше .

💬 Цитаты

«Компьютерное зрение — это преодоление разрыва между бессмысленными пикселями и значимыми концепциями, и, в конечном счете, человеческим влиянием.»

Эхсан Адели 02:44

«Ваша камера в телефоне обладает большей мощностью, чем системы, доставившие нас на Луну, а мы в основном используем её для фотографий бранча.»

Эхсан Адели 02:02

«Технология вряд ли когда-либо заменит отношения между людьми в медицине, но она обладает потенциалом значительно их улучшить.»

Эхсан Адели 51:28
👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Эмбиентный интеллект
Экосистема скрытых сенсоров и ИИ, которая постоянно анализирует физическое пространство для помощи человеку.
HIPAA
Американский закон о защите данных пациентов, устанавливающий жесткие стандарты конфиденциальности в медицине.
Трансформеры
Современная архитектура нейросетей, эффективно обрабатывающая последовательности данных (текст, видео).
Edge Computing
Обработка данных непосредственно на устройстве (камере), а не на удаленном сервере.
📊 Цифры
🗓 Хронология
  1. 1960-е Ларри Робертс использует геометрию для моделирования 3D-зрения.
  2. 1970-е Дэвид Марр описывает зрение как серию вычислительных этапов.
  3. 2012 Прорыв глубокого обучения с AlexNet и ImageNet.
  4. 2025 Публикация работы о Clinical Behavioral Atlas в журнале NEJM AI.
⚖️ Другая сторона
Искусственный интеллект Ehsan Adeli Computer Vision Stanford Online Ambient Intelligence MOMA dataset