Как Стэнфордский университет внедряет ИИ в медицину: фреймворк FURM и борьба с ошибками

Искусственный интеллект обещает революцию в медицине, однако путь от алгоритма до реальной пользы для пациента полон этических и операционных ловушек. На вебинаре Stanford Online профессор Стэнфордского университета Нигам Шах представил системный подход к внедрению ИИ, который выходит далеко за рамки написания кода и фокусируется на создании справедливых, полезных и надежных моделей (FURM).

🧬 Данные как фундамент: концепция «таймлайна пациента» 1:16

Главный тезис доктора Нигама Шаха заключается в том, что любой алгоритм машинного обучения ровно настолько хорош, насколько хороши данные, на которых он обучен . В Стэнфордском университете данные рассматривают не как разрозненные записи, а как «объекты временной шкалы пациента» (patient timeline objects) .

Такой подход обнажает ключевые проблемы медицинских данных:

Фрагментарность: В типичной больнице данные собираются только тогда, когда это необходимо для лечения, поэтому в истории болезни всегда есть «дыры» .
Отсутствие долгосрочного охвата: По словам Шаха, практически ни один пациент не имеет непрерывного покрытия данных на протяжении пяти и более лет в рамках одной системы .
Влияние на результат: То, как инженеры манипулируют этими таймлайнами и проводят проектирование признаков (feature engineering), влияет на производительность модели сильнее, чем выбор конкретной архитектуры нейросети .

⚖️ Классификация против прогнозирования: почему важна семантика 3:47

Нигам Шах настаивает на строгом разграничении медицинских задач, которые часто путают в индустрии. Он выделяет два основных направления: решение о том, нужно ли лечить (оранжевая зона), и как именно лечить (синяя зона) .

Особое внимание профессор уделяет разнице между классификацией (диагнозом) и прогнозированием (прогнозом):

Классификация: Анализ текущего состояния. Например, утверждение «на снимке пневмония» — это классификация, так как болезнь уже присутствует в момент съемки .
Прогнозирование: Оценка будущих событий. Это настоящий взгляд в будущее, определяющий риск развития осложнений .

Шах приводит в пример «предсказатели сепсиса», которые, по его мнению, на самом деле являются классификаторами . Они лишь фиксируют факт наличия сепсиса, который врачи еще не заметили. Эта педантичность важна для практики: если врач думает, что он прогнозирует, он пытается предотвратить событие; если он понимает, что классифицирует — он фокусируется на немедленном лечении .

🏥 От науки к доставке помощи: уровни внедрения ИИ 6:16

ИИ в здравоохранении может служить трем целям: развитию науки, совершенствованию врачебной практики или улучшению доставки медицинской помощи .

Для иллюстрации Шах описывает модель для пациентов с сердечной недостаточностью:

Наука: Выделение трех подтипов заболевания с разной выживаемостью .
Практика: Создание теста, позволяющего врачу определить подтип у конкретного пациента и назначить агрессивное лечение группе высокого риска .
Доставка помощи: Доказательство того, что за 5–10 лет применения этого режима люди стали жить дольше или стоимость их лечения снизилась .

Одним из успешных примеров интеграции данных в практику стал проект Green Button («Зеленая кнопка») в Стэнфордском университете . Идея заключалась в возможности отправить запрос по сложному случаю и получить отчет, основанный на анализе миллионов аналогичных историй болезни из базы данных . Доктор Шах отмечает, что 80% клинических решений врачи принимают, не имея под рукой опубликованных данных по конкретному случаю . Проект Green Button позже перерос в стартап Anthropos Health, который сократил время подготовки таких отчетов с дней до часов, а с применением генеративного ИИ — до минут .

🚀 Фреймворк FURM: как сделать ИИ устойчивым 13:10

По мнению Шаха, ценность ИИ возникает только тогда, когда за оценкой риска следует ответное действие . Он представил модель FURM (Fair, Useful, Reliable Models — Справедливые, Полезные, Надежные Модели), которая используется в Stanford Health Care .

Проблема современной медицины, как утверждает гость, заключается в том, что 50% всех руководств по ИИ сфокусированы на том, как построить модель (техническая часть), и почти ничего не говорят об этике, рабочих процессах и устойчивости . Шах приводит шокирующую цифру: на валидацию модели ЭКГ, которая определяет приоритетность пациентов в приемном покое, ушло 10 лет и 28 миллионов долларов . Такая организация работы, по его словам, просто неустойчива .

Фреймворк FURM предполагает три этапа:

Открытие (Discovery): Решение научных задач.
Разработка (Development): Оценка достижимой выгоды (сколько пациентов реально получат пользу, учитывая нагрузку на персонал) .
Распространение (Dissemination): Масштабирование и изменение бизнес-моделей.

Критически важным элементом является предварительное моделирование рабочего процесса . Прежде чем внедрять классификатор, больница должна четко знать: кто именно будет реагировать на его уведомления, есть ли у этого сотрудника свободное время и каков порог для принятия решения .

🤖 Генеративный ИИ в медицине: надежды и разочарования 24:09

Появление больших языковых моделей (LLM) в 2022 году изменило ландшафт, но Шах призывает к осторожности. Он предлагает рассматривать историю болезни (EHR) как «язык», где вместо слов используются коды диагнозов и процедур .

Исследования в Стэнфордском университете показали неоднозначные результаты:

GPT-3.5 vs GPT-4: При сравнении ответов на медицинские вопросы GPT-4 показала лучшие результаты, однако в 40–50% случаев врачи не могли однозначно оценить, правильный ли ответ дала модель . Профессор называет это «уверенно звучащими предложениями», которые невозможно проверить у постели больного .
Проект MedAlign: При тестировании способности моделей извлекать данные из электронных медкарт (например, историю инсультов пациента) уровень ошибок составил 35% .

В то же время Шах представил специализированные модели Climber и Motor . Обученные на временных шкалах пациентов, они показывают точность на 3–19% выше классических методов, обучаются в 8 раз быстрее и требуют на 95% меньше данных .

❓ Ответы на вопросы: этика, инженерия и «галлюцинации» 31:28

В ходе сессии вопросов и ответов доктор Шах затронул несколько прикладных аспектов:

Разделение ролей: Инженеры данных и специалисты по Data Science должны работать «рука об руку» в одной команде. Недопустимо, чтобы они просто «перебрасывали данные через забор» друг другу .
Скорость внедрения: Первый проект «под ключ» в Стэнфорде занял от 5 до 7 лет. После отработки процессов и платформ это время сократилось до 1,5 лет, а затем до 4 месяцев . Цель команды — выйти на цикл в один месяц .
Борьба с предвзятостью (bias): Шах предлагает нетрадиционный взгляд. Вместо того чтобы пытаться идеально «вычистить» модель, нужно сосредоточиться на «справедливом распределении пользы» (accrual of benefit) . Если модель и рабочий процесс вместе не создают систематических различий в качестве лечения для разных групп населения, то такая система может считаться справедливой .
Объяснимость (Explainability): Профессор считает требование объяснимости палкой о двух концах . Он отмечает, что большинство врачей не могут объяснить, как работает тайленол (парацетамол), но доверяют ему, потому что он прошел проспективные испытания . Аналогично, доверие к ИИ должно строиться на доказанной эффективности в испытаниях, а не только на прозрачности кода .

В завершение Шах подчеркнул, что Стэнфордский университет не обучает собственные модели с нуля из-за огромных затрат, а фокусируется на дообучении (fine-tuning) открытых моделей и, что более важно, на жесткой верификации их полезности .