# Как Стэнфорд внедряет ИИ в медицину: фреймворк FURM и проект Green Button

Источник: https://www.youtube.com/watch?v=oaNodDadWyg
Канал: Stanford Online
Опубликовано: 11.12.2024

---

На вебинаре Стэнфордского университета профессор медицины и главный специалист по данным Stanford Health Care доктор Нигам Шах представил системный подход к интеграции искусственного интеллекта в клиническую практику. Основное внимание было уделено переходу от создания теоретических моделей к внедрению инструментов, которые приносят реальную пользу пациентам, остаются финансово устойчивыми и этически безупречными.

## 📈 Данные как основа: концепция «объекта временной шкалы пациента»
[[JUMP:01:16]]

По мнению доктора Нигама Шаха, любая модель ИИ или машинного обучения (ML) ценна лишь настолько, насколько качественны данные, на которых она обучалась [01:28]. В Stanford Health Care данные рассматриваются не как разрозненные записи, а как «объекты временной шкалы пациента» (patient timeline objects).

Ключевые характеристики этих данных:

*   **Многообразие типов:** ЭКГ, артериальное давление, частота дыхания, назначения лекарств, лабораторные отчеты и текстовые документы [02:13].
*   **Фрагментарность:** в типичной медицинской среде данные собираются только тогда, когда это необходимо. Ни у одного пациента или врача нет полной непрерывной истории болезни за 5 и более лет [03:05].
*   **Влияние на результат:** Шах утверждает, что манипуляции с этими временными шкалами, обработка текста и проектирование признаков (feature engineering) влияют на итоговую производительность ИИ сильнее, чем выбор конкретного алгоритма [03:18].

## 🧠 Классификация против Прогнозирования: терминологическая ловушка
[[JUMP:03:47]]

В здравоохранении ИИ решает две основные задачи: помогать врачу решить, *нужно ли* лечить пациента, и *как именно* это делать. Однако доктор Шах указывает на критическую проблему подмены понятий в индустрии [04:12].

1.  **Классификация (диагностика):** Определение состояния, которое уже существует. Например, анализ рентгеновского снимка на наличие пневмонии — это классификация, а не предсказание, так как болезнь уже развилась на момент съемки [04:42].
2.  **Прогнозирование (прогноз):** Оценка будущих событий. 
3.  **Кейс о сепсисе:** По словам Шаха, большинство существующих «предикторов сепсиса» на самом деле являются классификаторами [05:08]. Они не предсказывают появление сепсиса в будущем, а просто фиксируют тот факт, что он уже есть у пациента, но медицинская команда об этом еще не знает. Эта семантическая разница критична: если вы думаете, что предсказываете, вы стремитесь к профилактике; если вы знаете, что классифицируете — вы фокусируетесь на лечении [05:34].

## 🏥 Сетка медицинского прогресса и проект Green Button
[[JUMP:06:16]]

Для оценки полезности ИИ доктор Шах использует матрицу, разделяющую прогресс на три уровня: наука, медицинская практика и оказание помощи (delivery).

*   **Наука:** Использование ИИ для обнаружения новых подтипов болезней (например, разделение сердечной недостаточности с сохраненной фракцией выброса на три подтипа) [06:44].
*   **Практика:** Создание тестов для определения подтипа у конкретного пациента и выбор агрессивного лечения для групп высокого риска [07:08].
*   **Оказание помощи:** Доказательство того, что за 5–10 лет использование ИИ позволило людям жить дольше или снизило стоимость лечения [07:34].

Одним из успешных примеров реализации этой концепции стал проект **Green Button** в Стэнфорде. Его суть — в возможности врача запросить консультацию на основе анализа миллионов похожих клинических случаев в режиме реального времени [08:01].

*   Исследования показывают, что в 80% случаев у врачей нет опубликованных данных для принятия конкретных решений у постели больного [09:06].
*   Проект Green Button позволил проводить «исследования по требованию» за 1–2 дня. Позже была создана компания-спинофф **Anthropos Health**, которая сократила это время до нескольких часов [09:56].
*   С внедрением генеративного ИИ такие статистические отчеты теперь можно генерировать за несколько минут [10:09].

## 🛠️ Фреймворк FURM: как сделать ИИ справедливым и полезным
[[JUMP:15:00]]

Чтобы избежать создания бесполезных моделей, в Stanford Health Care используют методологию **FURM (Fair, Useful, Reliable Models)** — справедливые, полезные и надежные модели [15:00]. 

Процесс FURM включает три стадии:

1.  **Анализ «Что и Зачем»:** До начала разработки оцениваются финансовые перспективы, этические риски и симулируется рабочий процесс (workflow) [15:15].
2.  **Создание модели:** Техническая разработка алгоритма.
3.  **Оценка влияния:** Проверка того, изменила ли модель реальные показатели здоровья [15:29].

Доктор Шах подчеркивает, что текущая модель медицинских исследований неустойчива. Например, на валидацию модели сортировки пациентов в отделении неотложной помощи (ЭКГ-тестирование) ушло 10 лет и 28 миллионов долларов [17:05]. Система FURM призвана ускорить этот процесс, делая упор на «достижимую выгоду» (achievable benefit) с учетом ограниченных ресурсов больницы [18:25].

### Этика и управление
[[JUMP:21:34]]

Для ответственного внедрения ИИ Шах предлагает структуру управления, состоящую из четырех компонентов:

*   Стандартные операционные процессы организации.
*   Поддержка ИТ-департамента.
*   **Управление (Governance):** Группа людей, чья работа — иметь право сказать «нет» проекту [23:16].
*   **Оценка FURM:** Предоставление управленцам цифр: сколько пациентов пострадает, насколько это финансово устойчиво, нет ли вреда для подгрупп населения [23:31].

## 🤖 Революция LLM: ИИ как язык медицинских записей
[[JUMP:24:09]]

С появлением больших языковых моделей (LLM) взгляд на электронные медицинские карты (EHR) изменился. Доктор Шах предлагает рассматривать историю болезни как последовательность токенов из словаря медицинских кодов (ICD, CPT, LOINC) [24:47].

В Stanford Online исследовали два направления использования LLM:

1.  **Общие модели (чат и суммаризация):**
    *   При сравнении ответов GPT-3.5 и GPT-4 на медицинские вопросы врачи отметили прогресс GPT-4, но в 40–50% случаев медики не могли однозначно решить, прав ИИ или нет [26:50].
    *   Проект **MedAlign** показал, что при выполнении задач по извлечению данных из EHR (например, поиск неврологических дефицитов после инсульта) частота ошибок составляет 35% даже в идеальных условиях [28:04].

2.  **Специализированные модели прогнозирования (CLIMBER и MOTOR):**
    *   Стэнфорд обучил модели на последовательностях медицинских кодов («языке EHR»). 
    *   Результаты: точность на 3–19% выше, чем у классических методов (логистическая регрессия, случайный лес).
    *   Обучение проходит в 8 раз быстрее и требует на 95% меньше данных [29:53].

## ❓ Ответы на вопросы: практика и нюансы
[[JUMP:31:28]]

В ходе сессии вопросов и ответов доктор Шах прояснил несколько важных аспектов:

*   **Инженерия данных:** В команде доктора Шаха инженеров данных больше, чем специалистов по Data Science. Эти функции должны работать «рука об руку», а не быть разделены забором [32:07].
*   **Скорость внедрения:** Первый проект занял у команды 5–7 лет. При накоплении опыта и создании платформ время сократилось до 1,5 лет, затем до 4 месяцев. Цель — довести цикл до одного месяца [33:41].
*   **Борьба с предвзятостью (Bias):** Шах считает, что нужно фокусироваться не на математической разнице в работе модели для разных групп, а на «систематической разнице в получении пользы» [42:44]. Если модель помогает всем одинаково в конечном итоге, технический «байс» менее важен.
*   **Объяснимость (Explainability):** По мнению профессора, требование объяснимости иногда замедляет прогресс [43:51]. Он приводит аналогию с парацетамолом: многие врачи не могут объяснить точный механизм его действия, но доверяют ему, потому что он прошел многочисленные клинические испытания. Для ИИ доверие также должно строиться на проспективных исследованиях, а не только на прозрачности кода [45:27].

### Примеры применения в других областях
[[JUMP:39:50]]

*   **Патология:** Проект `nuclei.io` профессора Джеймса Зоу помогает врачам находить важные участки на предметных стеклах, обучаясь на поведении конкретного специалиста [40:02].
*   **Лаборатории:** Счётчики клеток, использующие лазеры и вычисления, по сути являются наиболее распространенным ИИ в медицине уже несколько десятилетий [40:30].

Шах подытожил, что ключевой задачей академических центров сегодня является не просто создание моделей (что делают техгиганты за миллионы долларов), а жесткая верификация их преимуществ для реального здравоохранения [31:01].