# Как Стэнфордский университет внедряет ИИ в медицину: фреймворк FURM и борьба с ошибками

Источник: https://www.youtube.com/watch?v=oaNodDadWyg
Канал: Stanford Online
Опубликовано: 11.12.2024

---

Искусственный интеллект обещает революцию в медицине, однако путь от алгоритма до реальной пользы для пациента полон этических и операционных ловушек. На вебинаре Stanford Online профессор Стэнфордского университета Нигам Шах представил системный подход к внедрению ИИ, который выходит далеко за рамки написания кода и фокусируется на создании справедливых, полезных и надежных моделей (FURM).

## 🧬 Данные как фундамент: концепция «таймлайна пациента»
[[JUMP:01:16]]

Главный тезис доктора Нигама Шаха заключается в том, что любой алгоритм машинного обучения ровно настолько хорош, насколько хороши данные, на которых он обучен [01:28]. В Стэнфордском университете данные рассматривают не как разрозненные записи, а как «объекты временной шкалы пациента» (patient timeline objects) [01:43].

Такой подход обнажает ключевые проблемы медицинских данных:

*   **Фрагментарность:** В типичной больнице данные собираются только тогда, когда это необходимо для лечения, поэтому в истории болезни всегда есть «дыры» [02:53].
*   **Отсутствие долгосрочного охвата:** По словам Шаха, практически ни один пациент не имеет непрерывного покрытия данных на протяжении пяти и более лет в рамках одной системы [03:05].
*   **Влияние на результат:** То, как инженеры манипулируют этими таймлайнами и проводят проектирование признаков (feature engineering), влияет на производительность модели сильнее, чем выбор конкретной архитектуры нейросети [03:18].

## ⚖️ Классификация против прогнозирования: почему важна семантика
[[JUMP:03:47]]

Нигам Шах настаивает на строгом разграничении медицинских задач, которые часто путают в индустрии. Он выделяет два основных направления: решение о том, *нужно ли* лечить (оранжевая зона), и *как именно* лечить (синяя зона) [03:59].

Особое внимание профессор уделяет разнице между классификацией (диагнозом) и прогнозированием (прогнозом):

1.  **Классификация:** Анализ текущего состояния. Например, утверждение «на снимке пневмония» — это классификация, так как болезнь уже присутствует в момент съемки [04:42].
2.  **Прогнозирование:** Оценка будущих событий. Это настоящий взгляд в будущее, определяющий риск развития осложнений [04:29].

Шах приводит в пример «предсказатели сепсиса», которые, по его мнению, на самом деле являются классификаторами [05:08]. Они лишь фиксируют факт наличия сепсиса, который врачи еще не заметили. Эта педантичность важна для практики: если врач думает, что он прогнозирует, он пытается *предотвратить* событие; если он понимает, что классифицирует — он фокусируется на немедленном *лечении* [05:21].

## 🏥 От науки к доставке помощи: уровни внедрения ИИ
[[JUMP:06:16]]

ИИ в здравоохранении может служить трем целям: развитию науки, совершенствованию врачебной практики или улучшению доставки медицинской помощи [06:29].

Для иллюстрации Шах описывает модель для пациентов с сердечной недостаточностью:

*   **Наука:** Выделение трех подтипов заболевания с разной выживаемостью [06:44].
*   **Практика:** Создание теста, позволяющего врачу определить подтип у конкретного пациента и назначить агрессивное лечение группе высокого риска [07:08].
*   **Доставка помощи:** Доказательство того, что за 5–10 лет применения этого режима люди стали жить дольше или стоимость их лечения снизилась [07:34].

Одним из успешных примеров интеграции данных в практику стал проект **Green Button** («Зеленая кнопка») в Стэнфордском университете [08:01]. Идея заключалась в возможности отправить запрос по сложному случаю и получить отчет, основанный на анализе миллионов аналогичных историй болезни из базы данных [08:13]. Доктор Шах отмечает, что 80% клинических решений врачи принимают, не имея под рукой опубликованных данных по конкретному случаю [09:06]. Проект Green Button позже перерос в стартап **Anthropos Health**, который сократил время подготовки таких отчетов с дней до часов, а с применением генеративного ИИ — до минут [09:56].

## 🚀 Фреймворк FURM: как сделать ИИ устойчивым
[[JUMP:13:10]]

По мнению Шаха, ценность ИИ возникает только тогда, когда за оценкой риска следует ответное действие [12:43]. Он представил модель FURM (Fair, Useful, Reliable Models — Справедливые, Полезные, Надежные Модели), которая используется в Stanford Health Care [15:00].

Проблема современной медицины, как утверждает гость, заключается в том, что 50% всех руководств по ИИ сфокусированы на том, как построить модель (техническая часть), и почти ничего не говорят об этике, рабочих процессах и устойчивости [16:37]. Шах приводит шокирующую цифру: на валидацию модели ЭКГ, которая определяет приоритетность пациентов в приемном покое, ушло 10 лет и 28 миллионов долларов [17:05]. Такая организация работы, по его словам, просто неустойчива [17:19].

Фреймворк FURM предполагает три этапа:

1.  **Открытие (Discovery):** Решение научных задач.
2.  **Разработка (Development):** Оценка достижимой выгоды (сколько пациентов реально получат пользу, учитывая нагрузку на персонал) [18:25].
3.  **Распространение (Dissemination):** Масштабирование и изменение бизнес-моделей.

Критически важным элементом является предварительное моделирование рабочего процесса [19:18]. Прежде чем внедрять классификатор, больница должна четко знать: кто именно будет реагировать на его уведомления, есть ли у этого сотрудника свободное время и каков порог для принятия решения [19:46].

## 🤖 Генеративный ИИ в медицине: надежды и разочарования
[[JUMP:24:09]]

Появление больших языковых моделей (LLM) в 2022 году изменило ландшафт, но Шах призывает к осторожности. Он предлагает рассматривать историю болезни (EHR) как «язык», где вместо слов используются коды диагнозов и процедур [24:47].

Исследования в Стэнфордском университете показали неоднозначные результаты:

*   **GPT-3.5 vs GPT-4:** При сравнении ответов на медицинские вопросы GPT-4 показала лучшие результаты, однако в 40–50% случаев врачи не могли однозначно оценить, правильный ли ответ дала модель [26:50]. Профессор называет это «уверенно звучащими предложениями», которые невозможно проверить у постели больного [27:04].
*   **Проект MedAlign:** При тестировании способности моделей извлекать данные из электронных медкарт (например, историю инсультов пациента) уровень ошибок составил 35% [28:04].

В то же время Шах представил специализированные модели **Climber** и **Motor** [29:53]. Обученные на временных шкалах пациентов, они показывают точность на 3–19% выше классических методов, обучаются в 8 раз быстрее и требуют на 95% меньше данных [29:53].

## ❓ Ответы на вопросы: этика, инженерия и «галлюцинации»
[[JUMP:31:28]]

В ходе сессии вопросов и ответов доктор Шах затронул несколько прикладных аспектов:

*   **Разделение ролей:** Инженеры данных и специалисты по Data Science должны работать «рука об руку» в одной команде. Недопустимо, чтобы они просто «перебрасывали данные через забор» друг другу [32:07].
*   **Скорость внедрения:** Первый проект «под ключ» в Стэнфорде занял от 5 до 7 лет. После отработки процессов и платформ это время сократилось до 1,5 лет, а затем до 4 месяцев [33:28]. Цель команды — выйти на цикл в один месяц [33:41].
*   **Борьба с предвзятостью (bias):** Шах предлагает нетрадиционный взгляд. Вместо того чтобы пытаться идеально «вычистить» модель, нужно сосредоточиться на «справедливом распределении пользы» (accrual of benefit) [42:44]. Если модель и рабочий процесс вместе не создают систематических различий в качестве лечения для разных групп населения, то такая система может считаться справедливой [43:10].
*   **Объяснимость (Explainability):** Профессор считает требование объяснимости палкой о двух концах [43:51]. Он отмечает, что большинство врачей не могут объяснить, как работает тайленол (парацетамол), но доверяют ему, потому что он прошел проспективные испытания [45:27]. Аналогично, доверие к ИИ должно строиться на доказанной эффективности в испытаниях, а не только на прозрачности кода [45:41].

В завершение Шах подчеркнул, что Стэнфордский университет не обучает собственные модели с нуля из-за огромных затрат, а фокусируется на дообучении (fine-tuning) открытых моделей и, что более важно, на жесткой верификации их полезности [30:21].