Как Стэнфорд внедряет ИИ в медицину: фреймворк FURM и проект Green Button

На вебинаре Стэнфордского университета профессор медицины и главный специалист по данным Stanford Health Care доктор Нигам Шах представил системный подход к интеграции искусственного интеллекта в клиническую практику. Основное внимание было уделено переходу от создания теоретических моделей к внедрению инструментов, которые приносят реальную пользу пациентам, остаются финансово устойчивыми и этически безупречными.

📈 Данные как основа: концепция «объекта временной шкалы пациента» 1:16

По мнению доктора Нигама Шаха, любая модель ИИ или машинного обучения (ML) ценна лишь настолько, насколько качественны данные, на которых она обучалась . В Stanford Health Care данные рассматриваются не как разрозненные записи, а как «объекты временной шкалы пациента» (patient timeline objects).

Ключевые характеристики этих данных:

Многообразие типов: ЭКГ, артериальное давление, частота дыхания, назначения лекарств, лабораторные отчеты и текстовые документы .
Фрагментарность: в типичной медицинской среде данные собираются только тогда, когда это необходимо. Ни у одного пациента или врача нет полной непрерывной истории болезни за 5 и более лет .
Влияние на результат: Шах утверждает, что манипуляции с этими временными шкалами, обработка текста и проектирование признаков (feature engineering) влияют на итоговую производительность ИИ сильнее, чем выбор конкретного алгоритма .

🧠 Классификация против Прогнозирования: терминологическая ловушка 3:47

В здравоохранении ИИ решает две основные задачи: помогать врачу решить, нужно ли лечить пациента, и как именно это делать. Однако доктор Шах указывает на критическую проблему подмены понятий в индустрии .

Классификация (диагностика): Определение состояния, которое уже существует. Например, анализ рентгеновского снимка на наличие пневмонии — это классификация, а не предсказание, так как болезнь уже развилась на момент съемки .
Прогнозирование (прогноз): Оценка будущих событий.
Кейс о сепсисе: По словам Шаха, большинство существующих «предикторов сепсиса» на самом деле являются классификаторами . Они не предсказывают появление сепсиса в будущем, а просто фиксируют тот факт, что он уже есть у пациента, но медицинская команда об этом еще не знает. Эта семантическая разница критична: если вы думаете, что предсказываете, вы стремитесь к профилактике; если вы знаете, что классифицируете — вы фокусируетесь на лечении .

🏥 Сетка медицинского прогресса и проект Green Button 6:16

Для оценки полезности ИИ доктор Шах использует матрицу, разделяющую прогресс на три уровня: наука, медицинская практика и оказание помощи (delivery).

Наука: Использование ИИ для обнаружения новых подтипов болезней (например, разделение сердечной недостаточности с сохраненной фракцией выброса на три подтипа) .
Практика: Создание тестов для определения подтипа у конкретного пациента и выбор агрессивного лечения для групп высокого риска .
Оказание помощи: Доказательство того, что за 5–10 лет использование ИИ позволило людям жить дольше или снизило стоимость лечения .

Одним из успешных примеров реализации этой концепции стал проект Green Button в Стэнфорде. Его суть — в возможности врача запросить консультацию на основе анализа миллионов похожих клинических случаев в режиме реального времени .

Исследования показывают, что в 80% случаев у врачей нет опубликованных данных для принятия конкретных решений у постели больного .
Проект Green Button позволил проводить «исследования по требованию» за 1–2 дня. Позже была создана компания-спинофф Anthropos Health, которая сократила это время до нескольких часов .
С внедрением генеративного ИИ такие статистические отчеты теперь можно генерировать за несколько минут .

🛠️ Фреймворк FURM: как сделать ИИ справедливым и полезным 15:00

Чтобы избежать создания бесполезных моделей, в Stanford Health Care используют методологию FURM (Fair, Useful, Reliable Models) — справедливые, полезные и надежные модели .

Процесс FURM включает три стадии:

Анализ «Что и Зачем»: До начала разработки оцениваются финансовые перспективы, этические риски и симулируется рабочий процесс (workflow) .
Создание модели: Техническая разработка алгоритма.
Оценка влияния: Проверка того, изменила ли модель реальные показатели здоровья .

Доктор Шах подчеркивает, что текущая модель медицинских исследований неустойчива. Например, на валидацию модели сортировки пациентов в отделении неотложной помощи (ЭКГ-тестирование) ушло 10 лет и 28 миллионов долларов . Система FURM призвана ускорить этот процесс, делая упор на «достижимую выгоду» (achievable benefit) с учетом ограниченных ресурсов больницы .

Этика и управление 21:34

Для ответственного внедрения ИИ Шах предлагает структуру управления, состоящую из четырех компонентов:

Стандартные операционные процессы организации.
Поддержка ИТ-департамента.
Управление (Governance): Группа людей, чья работа — иметь право сказать «нет» проекту .
Оценка FURM: Предоставление управленцам цифр: сколько пациентов пострадает, насколько это финансово устойчиво, нет ли вреда для подгрупп населения .

🤖 Революция LLM: ИИ как язык медицинских записей 24:09

С появлением больших языковых моделей (LLM) взгляд на электронные медицинские карты (EHR) изменился. Доктор Шах предлагает рассматривать историю болезни как последовательность токенов из словаря медицинских кодов (ICD, CPT, LOINC) .

В Stanford Online исследовали два направления использования LLM:

Общие модели (чат и суммаризация):
- При сравнении ответов GPT-3.5 и GPT-4 на медицинские вопросы врачи отметили прогресс GPT-4, но в 40–50% случаев медики не могли однозначно решить, прав ИИ или нет .
- Проект MedAlign показал, что при выполнении задач по извлечению данных из EHR (например, поиск неврологических дефицитов после инсульта) частота ошибок составляет 35% даже в идеальных условиях .
Специализированные модели прогнозирования (CLIMBER и MOTOR):
- Стэнфорд обучил модели на последовательностях медицинских кодов («языке EHR»).
- Результаты: точность на 3–19% выше, чем у классических методов (логистическая регрессия, случайный лес).
- Обучение проходит в 8 раз быстрее и требует на 95% меньше данных .

❓ Ответы на вопросы: практика и нюансы 31:28

В ходе сессии вопросов и ответов доктор Шах прояснил несколько важных аспектов:

Инженерия данных: В команде доктора Шаха инженеров данных больше, чем специалистов по Data Science. Эти функции должны работать «рука об руку», а не быть разделены забором .
Скорость внедрения: Первый проект занял у команды 5–7 лет. При накоплении опыта и создании платформ время сократилось до 1,5 лет, затем до 4 месяцев. Цель — довести цикл до одного месяца .
Борьба с предвзятостью (Bias): Шах считает, что нужно фокусироваться не на математической разнице в работе модели для разных групп, а на «систематической разнице в получении пользы» . Если модель помогает всем одинаково в конечном итоге, технический «байс» менее важен.
Объяснимость (Explainability): По мнению профессора, требование объяснимости иногда замедляет прогресс . Он приводит аналогию с парацетамолом: многие врачи не могут объяснить точный механизм его действия, но доверяют ему, потому что он прошел многочисленные клинические испытания. Для ИИ доверие также должно строиться на проспективных исследованиях, а не только на прозрачности кода .

Примеры применения в других областях 39:50

Патология: Проект nuclei.io профессора Джеймса Зоу помогает врачам находить важные участки на предметных стеклах, обучаясь на поведении конкретного специалиста .
Лаборатории: Счётчики клеток, использующие лазеры и вычисления, по сути являются наиболее распространенным ИИ в медицине уже несколько десятилетий .

Шах подытожил, что ключевой задачей академических центров сегодня является не просто создание моделей (что делают техгиганты за миллионы долларов), а жесткая верификация их преимуществ для реального здравоохранения .