ИИ-доктор от Google: когда роботы начнут лечить миллиарды людей?

Развитие искусственного интеллекта в медицине приближает нас к реальности, где качественная врачебная помощь станет доступной каждому человеку прямо с его персонального устройства. В новом выпуске подкаста The Cognitive Revolution ведущий Нейтан Лабенц обсуждает этот тектонический сдвиг с исследователями ИИ из Google — Вивеком Натараджяном и Халедом Саабом. Собеседники подробно анализируют последние научные прорывы компании, включая модели Flamingo CXR, AMIE и семейство Med-Gemini, которые уже сегодня способны конкурировать с практикующими врачами в диагностике и анализе медицинских данных.

🩻 Радиология на плечах гигантов: от Flamingo к генерации клинических отчетов 6:33

Обсуждение новейших достижений Google в медицине начинается с анализа применения ИИ в радиологии. Нейтан Лабенц отмечает, что базой для этого исследования стала модель Flamingo, выпущенная Google еще в апреле 2022 года. Несмотря на то, что для сферы искусственного интеллекта полтора года — это огромный срок, модель сохраняет свою актуальность.

Вивек Натараджян подчеркивает, что их команда стоит «на плечах гигантов», а Flamingo была одной из первых фундаментальных мультимодальных моделей, продемонстрировавших способность к обучению по нескольким примерам (few-shot learning) за пределами чистого текста. Радиология долгое время оставалась в фокусе медицинского ИИ, и исследователь в шутку вспоминает некогда знаменитое, но ставшее скандальным заявление доктора Джеффри Хинтона о том, что ИИ вскоре полностью заменит радиологов. По мнению Натараджяна, Хинтон был не так уж далек от истины.

Ведущий приводит в пример личную историю: кузина его жены, работающая врачом, жаловалась, что в их больнице пациентам приходится ждать результатов расшифровки снимков и получения отчетов до 60 дней. Этот факт указывает на колоссальный дефицит специалистов по всему миру, поэтому, как считает Лабенц, вопросы о «замене» врачей искусственным интеллектом в краткосрочной перспективе вторичны — важнее решить проблему нехватки кадров.

Исследование Google показало, что ИИ впервые приблизился к реальной клинической полезности в задаче генерации полноценных текстовых отчетов, а не просто узкой классификации патологий. Для достижения такого результата разработчики использовали относительно скромную по сегодняшним меркам мультимодальную модель, но обучили ее на огромном объеме высококачественных открытых данных из репозитория MIMIC.

Ключевые выводы исследования радиологической модели:

Клиническая применимость: Сочетание сильного мультимодального алгоритма и тщательно очищенных радиологических данных позволяет генерировать отчеты, сопоставимые по качеству с работой человека.
Синергия человека и ИИ: В рамках эксперимента отчеты ИИ передавались радиологам для редактирования. Итоговый композитный результат такой системы «человек + ИИ» оказался качественнее, чем работа исключительно ИИ или исключительно врача в одиночку.

Вивек Натараджян цитирует доктора Курта Ланглотца из Стэнфордского университета, который сформулировал важный тезис: «ИИ не заменит радиологов, но радиологи, использующие ИИ, заменят тех, кто его не использует». Описанный эксперимент стал первым строгим доказательством справедливости этих слов.

Важным техническим нюансом работы, по словам Натараджяна, стала подготовка данных. Если обучать нейросеть на «сырых» медицинских отчетах, она начинает копировать упоминания анамнеза прошлых лет, которых нет на текущем снимке, что ведет к галлюцинациям. Для исправления этого дефекта команда использовала датасет, очищенный доктором Пранавом Раджпуркаром и его коллегами из Гарварда. Натараджян отмечает, что это демонстрирует важный симбиоз между академической наукой, создающей бенчмарки и датасеты, и коммерческой индустрией, предоставляющей мощные вычислительные фреймворки и базовые модели.

Халед Сааб добавляет, что переход от простой классификации к генеративному ИИ кардинально усложнил оценку систем. Точность больше нельзя измерить простыми метриками вроде точности совпадения меток. Золотым стандартом оценки в медицине, по мнению Сааба, является кропотливая слепая экспертиза ответов ИИ панелью независимых врачей, что значительно увеличивает сроки проведения исследований, но критически необходимо для безопасности.

💬 Проект AMIE: как научить ИИ вести диагностический диалог и проявлять эмпатию 14:38

Модель AMIE (Amy), разработанная на базе Palm 2, продемонстрировала поразительные результаты в ведении диагностических медицинских бесед. Нейтан Лабенц отмечает, что Palm 2 — это предыдущее поколение моделей Google, но если бы такую технологию представили в 2020 году, это вызвало бы абсолютный шок.

В ходе текстового чат-взаимодействия система AMIE смогла ставить дифференциальный диагноз точнее, чем практикующие врачи общей практики. Более того, по многим параметрам оценки — включая точность вопросов, качество объяснений и даже проявление эмпатии — пациенты-актеры и сторонкие эксперты поставили модели более высокие баллы, чем живым докторам.

Вивек Натараджян признается, что после релиза первой модели Med-PaLM команда обсуждала сроки создания ИИ, способного вести полноценный диагностический диалог, и все сходились во мнении, что на это уйдет не менее двух лет. Однако нужные показатели были достигнуты всего через шесть месяцев.

Натараджян объясняет, почему создание диагностического чат-бота — это сверхсложная задача:

Отсутствие структурированных данных: Раньше моделям давали готовые текстовые выжимки клинических случаев, где все факты были уже собраны, и просили назвать диагноз. В реальной жизни врач начинает разговор с нуля, расспрашивая пациента об истории болезни и симптомах.
Принятие решений в условиях неопределенности: Модели необходимо выстроить стратегию расспроса, назначить лабораторные тесты и сформировать план лечения.
Смена ролевой модели: Обычные ИИ-ассистенты спроектированы так, что диалогом управляет пользователь, а модель лишь подстраивается. В медицине инициативу должен перехватывать ИИ, целенаправленно ведя пациента по диагностическому маршруту.

Впрочем, Натараджян призывает не переоценивать результаты и признает, что сравнение с людьми было не до конца справедливым. Врачи не привыкли общаться с пациентами через текстовый чат, им критически важны визуальные и невербальные сигналы для установления раппорта. Кроме того, ИИ никогда не устает, поэтому в каждом раунде выдает свой максимум, тогда как тестируемые живые доктора участвовали в эксперименте после тяжелого рабочего дня в клинике.

Успех AMIE, по словам Халеда Сааба, обеспечила уникальная симуляционная среда обучения (Multi-Agent Synthetic Data Framework). Первая попытка обучить модель на реальных текстовых транскриптах разговоров врачей и пациентов провалилась: в живой речи слишком много пауз, междометий, неловких оборотов и контекстуальных намеков, которые при переносе в текст превращаются в цифровой шум.

Тогда инженеры Google создали многоагентную систему генерации синтетических данных, состоящую из трех ИИ-компонентов:

Агент-пациент: Получает детализированный профиль (виньетку) со своей болезнью, симптомами, социальным статусом и историей путешествий.
Агент-врач: Имеет четкие клинические инструкции по ведению расспроса и диагностике.
Агент-критик: Оценивает качество сгенерированного диалога на основе жестких медицинских стандартов и возвращает обратную связь для доработки.

Генератор клинических виньеток использовал веб-поиск для автоматического создания десятков тысяч уникальных профилей пациентов. Это позволило решить проблему покрытия редких заболеваний и социально-экономического разнообразия. В симуляции инженеры могли задавать агентам-пациентам разные характеры: делать их излишне болтливыми, тревожными или даже агрессивными, обучая ИИ-врача сохранять хладнокровие и рациональность в любых условиях. Сааб отмечает, что модель AMIE обучалась играть обе роли — и пациента, и врача — в рамках внешнего цикла самообучения (outer self-play loop), который повторили ровно семь раз до момента фиксации чекпоинта.

🧬 Семейство Med-Gemini: миллионное контекстное окно и мультимодальный прорыв 36:47

Следующим витком эволюции медицинских технологий Google стало семейство моделей Med-Gemini. По оценке Вивека Натараджяна, главным технологическим прорывом здесь стало появление нативной мультимодальности в сочетании с гигантским контекстным окном в один миллион (а затем и два миллиона) токенов. В отличие от Med-PaLM, где исследователям приходилось доказывать саму концепцию возможности создания медицинского ИИ общего профиля, Med-Gemini создавалась как гибкая платформа, открывающая колоссальный спектр прикладных возможностей.

Натараджян делится изменением философии разработки в Google: команда отказалась от идеи создания одной гигантской универсальной модели-журналиста (generalist model), умеющей делать абсолютно всё. Реальное развертывание ИИ в больницах требует жесткого баланса стоимости, задержки (latency) и пропускной способности.

Поэтому Google предлагает клиентам дифференцированное меню специализированных моделей:

Легковесные модели: Оптимизированы для задач с низкими задержками и высокой пропускной способностью, где не требуются сложные глубокие рассуждения.
Тяжелые флагманские модели: Предназначены для продвинутого клинического анализа, требующего удержания в памяти миллионов токенов информации.

Халед Сааб объясняет, что колоссальный объем контекста Gemini позволил автоматизировать задачи, которые раньше были недоступны ИИ. Модель способна анализировать гигантские файлы электронных медицинских карт (EHR) пациента за многие годы, мгновенно находя скрытые закономерности или специфические детали в истории болезни. Кроме того, Med-Gemini успешно справляется с анализом видеозаписей хирургических операций в реальном времени и может одновременно обрабатывать массив из 12 массивных научных генетических статей для поиска нужного ответа.

При этом исследователи признают, что существующие статичные академические бенчмарки больше не поспевают за возможностями систем. Прирост на несколько процентов в тестах не отражает колоссального качественного скачка модели в реальном диалоге, поэтому Google вынуждена сочетать количественные тесты с глубокой качественной оценкой практикующими врачами.

💰 Экономика планетарного масштаба: цена ИИ-медицины и барьеры внедрения 46:56

Нейтан Лабенц поднимает важный философский вопрос о стоимости вычислений. По его наблюдениям, создатели ИИ-продуктов сегодня избыточно тревожатся о ценах на API, выбирая более слабые модели из-за боязни, что подписка для конечного пользователя будет стоить условные 500 долларов в месяц. Ведущий утверждает, что за рабочий инструмент такого уровня потребители готовы платить эти деньги, тем более что стоимость токенов стремительно падает — например, для Gemini 1.5 Pro она составляет всего 7 долларов за миллион входных токенов.

Вивек Натараджян категорически не соглашается с логикой Лабенца, объясняя это глобальной миссией Google. Цель компании — создавать продукты не для топ-1% богатого населения, а для миллиардов людей по всему миру. Сумма в 500 долларов в год может казаться незначительной для жителей Калифорнии, но для населения Индии или стран Африки это непреодолимый барьер. ИИ должен не усугублять существующее неравенство в здравоохранении, а нивелировать его, давая беднейшим слоям планеты доступ к медицине первого мира за символические деньги.

Однако на пути к этой утопии стоят три масштабных барьера:

Регуляторные требования: Жесткий контроль со стороны таких агентств, как FDA.
Технологическая адаптация: Необходимость интеграции ИИ в сложнейшие ИТ-системы клиник.
Общественное доверие: Общий уровень скепсиса людей по отношению к технологиям.

Натараджян делится личным наблюдением: его мама редко пользуется современным ИИ вроде ChatGPT, а ее реальный опыт столкновения с искусственным интеллектом ограничивается тупыми голосовыми роботами авиакомпаний или несовершенными старыми версиями Google Home и Alexa. Для большинства обывателей за пределами Кремниевой долины этот опыт ужасен, поэтому их ожидания и уровень доверия к ИИ крайне низки. По оценке гостя, лишь около 10% населения планеты хотя бы раз в жизни видели GPT-4 или Gemini, и до реальной массовой диффузии технологии пройдут десятилетия.

Халед Сааб вспоминает, как пришел в Google и на внутреннем саммите наивно спросил, почему компания не может просто выпустить медицинские ИИ-модели бесплатно для всех прямо сейчас, раз обычные чат-боты бесплатны. Позже он осознал всю тонкость и медицинскую специфику контроля безопасности.

Вивек Натараджян добавляет, что путь вывода медицинского ИИ на рынок полностью идентичен выводу новых фармацевтических лекарств. Сначала идут тесты в пробирке (in vitro) — это симуляции на актерах, которые Google уже провела для AMIE. Следующий обязательный шаг — проведение строгих многофазных клинических испытаний с интеграцией ИИ в реальные рабочие процессы больниц в качестве экспериментального вмешательства. Причем на первых этапах проверяется исключительно безопасность (safety), и только потом — эффективность (efficacy).

Исследователь подчеркивает критическую этическую проблему: нельзя брать непроверенную, потенциально опасную технологию и тестировать ее на бедных регионах мира, у которых нет альтернативы. Но для безопасного тестирования необходим тотальный надзор (scalable oversight) со стороны квалифицированных врачей, готовых перехватить управление в случае ошибки ИИ. А такие избыточные медицинские ресурсы для контроля есть только на Западе, поэтому Google сейчас инициирует партнерства с крупнейшими медицинскими организациями США для проведения первых испытаний.

«Всё в здравоохранении движется со скоростью доверия», — резюмирует Вивек Натараджян. Попытки срезать углы и выпустить сырой продукт отбросят индустрию медицинского ИИ на десятилетия назад.

🔍 Поиск под управлением неопределенности и анализ 3D-снимков 1:02:00

Важным элементом архитектуры Med-Gemini стала система поиска, управляемая оценкой собственной уверенности (uncertainty-guided search). Халед Сааб раскрывает технические детали алгоритма: если просто заставить модель генерировать поисковые запросы в веб-поиск ко всякому медицинскому вопросу, это только запутает систему. ИИ начинает цепляться за нерелевантные факты из интернета, что повышает риск ошибок.

Инженеры Google внедрили изящное двухэтапное решение:

Контрастная оценка ответов: Модель генерирует ответ на клиническую задачу несколько раз параллельно. Если между вариантами возникает расхождение или конфликт (высокий уровень неопределенности), алгоритм берет эти противоречащие друг другу куски текста и на их основе формирует точечный поисковый запрос, чтобы прояснить конкретную деталь, вызвавшую замешательство.
Обучение работе с поисковой выдачей: В процессе обучения (self-training) Med-Gemini специально натаскивали на извлечение правильных фактов из контекста результатов поиска, приучая ее не доверять слепо всему массиву веб-страниц.

Вивек Натараджян с улыбкой вспоминает, как во время трехмесячного марафона разработки Халед Сааб писал этот код буквально на заправочных станциях в машине, что зафиксировано на видео его супругой Кирстен. Натараджян признает данный метод промежуточным. В идеале модель должна выдавать надежную внутреннюю вербализованную оценку своей уверенности без дорогостоящей параллельной регенерации текста.

Результаты применения Med-Gemini к анализу сложных медицинских изображений поражают воображение. При генерации отчетов по двухмерным рентгеновским снимкам грудной клетки ИИ достиг уровня практического применения.

Статистика экспертной оценки радиологических отчетов Med-Gemini:

В 57% и 96% случаев (на двух разных датасетах) отчеты ИИ для нормальных (здоровых) пациентов были оценены врачами как эквивалентные или превосходящие отчеты человеческих радиологов.
В 43% и 65% случаев отчеты для пациентов с выявленными аномалиями и патологиями признаны равными или лучшими, чем человеческие.

Кроме того, команда впервые в мире применила большую мультимодальную модель для анализа трехмерных КТ-сканов (компьютерная томография). На текущем этапе 53% отчетов ИИ по результатам 3D-томографии были признаны полностью приемлемыми с клинической точки зрения.

Исследователи ведут дискуссию о будущем архитектуры: Натараджян надеется на создание универсальных энкодеров, способных одинаково эффективно обрабатывать любое 2D-изображение и любое 3D-видео (включая МРТ и КТ) без необходимости строить сотни специализированных медицинских слоев-адаптеров. Сааб возражает, заявляя, что даже если индустрия создаст идеальные всеядные энкодеры, медицинская специализация на этапе пост-обучения (post-training) останется обязательной, поскольку ИИ необходимо целенаправленно обучать специфическому клиническому поведению и правилам ведения врачебного диалога.

🧪 Модель TxLLM: рождение гибридного ИИ-ученого-клинициста 1:11:10

Последняя обсуждаемая работа — модель TxLLM, которая интегрирует текстовое описание медицинских концепций со строгой химической нотацией лекарственных соединений. Химическая структура кодируется в виде текстовых токенов (символов углерода, водорода, кислорода и связей между ними), и модель учится оперировать ими наряду с естественным языком.

Вивек Натараджян разворачивает масштабную историческую аналогию: такие великие ученые, как Александр Флеминг (открывший пенициллин) или Джонас Солк (создатель вакцины от полиомиелита), были практикующими врачами. Они днем принимали пациентов в клинике, подмечая особенности болезней, а по ночам шли в лабораторию проводить эксперименты.

Стратегическая цель Google — закодировать всю биомедицинскую вселенную на всех уровнях биологического стека: от субклеточных молекулярных измерений, ДНК- и РНК-секвенирования до протеомики, КТ-снимков, электронных карт и популяционных данных. По мнению Натараджяна, результатом станет создание гибридного ИИ-ученого-клинициста (hybrid AI physician-scientist), который перевернет не только лечение, но и фундаментальное понимание биологии человека.

Модель TxLLM уже доказала свою эффективность как единый универсальный инструмент, способный решать задачи на протяжении всей цепочки разработки лекарств (drug discovery pipeline): от поиска мишени заболевания на ранних стадиях до планирования финальных клинических испытаний. В некоторых узких задачах она пока уступает специализированным химическим моделям, но за счет трансферного обучения (transfer learning) между терапевтическими направлениями демонстрирует удивительные синергетические результаты.

Еще одним важным направлением стала генетическая диагностика редких заболеваний. Использовав креативный потенциал ИИ (который является обратной стороной склонности к галлюцинациям), ученые Google совместно со Стэнфордским университетом смогли выдвинуть гипотезу о генетических причинах потери слуха у мышей. Впоследствии биологи из Стэнфорда провели реальные лабораторные эксперименты по нокауту генов с помощью технологии CRISPR и полностью подтвердили гипотезу, сгенерированную нейросетью.

⚖️ Пророчества Курцвейла и дилемма технологической гонки с Китаем 1:23:08

В финальной части беседы Нейтан Лабенц констатирует, что человечество с поразительной точностью движется по экспоненциальным графикам технологического развития, которые футуролог Рэймонд Курцвейл рисовал еще 25 лет назад. Ожидания скорого прихода сверхинтеллекта к 2027 году становятся мейнстримом среди исследователей.

Лабенц формулирует свою личную философскую позицию: он называет себя акселерационистом внедрения и сторонником паузы в гипермасштабировании (adoption accelerationist hyperscaling pauser). С одной стороны, он мечтает о скорейшем запуске ИИ-врачей, но с другой — всерьез опасается неконтролируемого наращивания вычислительных мощностей и обучения гигантских моделей. Ведущий интересуется у гостей: можно ли получить полноценного ИИ-доктора, зафиксировав базовые возможности моделей на текущем уровне (например, Gemini 1.5 Pro) и развивая исключительно надстройки, безопасность и методы тонкой настройки?.

Халед Сааб отвечает утвердительно, подчеркивая, что человечество уже окружено «сверхчеловеческими» инструментами: обычный калькулятор считает лучше профессора математики, а базы данных обладают абсолютной памятью. Сааб согласен, что даже если прогресс фундаментальных моделей полностью остановится на Gemini 1.5, запаса мощностей хватит для создания великолепного ИИ-врача общего профиля за счет ручного труда инженеров и валидации. Однако Сааба беспокоит проблема галлюцинаций в критических ситуациях. Модели могут демонстрировать невероятный интеллект и одновременно сыпаться на базовой логике, поэтому исследователь считает продолжение фундаментальной разработки необходимым для исправления этих глубоких дефектов рассуждения.

Вивек Натараджян проводит аналогию со службой беспилотных такси Waymo от Google. У нас нет сильного ИИ (AGI), но полностью автономные роботакси уже ездят по городам и дарят людям ощущение магии. Это результат не масштабирования вычислений, а системной инженерии, жестких симуляций и оттачивания безопасности на редких дорожных ситуациях. В медицине будет то же самое.

Тем не менее, Лабенц выражает глубокую тревогу по поводу опубликованного манифеста Леопольда Ашенбреннера «Ситуационная осведомленность» (Situational Awareness), который фактически предрекает неизбежную международную гонку вооружений в сфере ИИ между США и Китаем, ведущую к строительству дата-центров стоимостью в триллион долларов. Ведущий признается, что мечтает избежать этого сценария, сделав проект создания ИИ-врача на базе моделей класса $10^{26}$ флопс открытым международным проектом, возможно, даже в кооперации с Китаем, чтобы направить энергию суперкомпьютеров в мирное русло.

Вивек Натараджян, сохраняя прагматизм, отмечает, что даже если гонка масштабирования вызовет тектонический сдвиг в экономике и бизнес-моделях стартапов, это не отменит главного: контуры будущего ИИ-здравоохранения уже очерчены и вышли из плоскости научной фантастики. Прогресс человечества всегда сопровождался появлением технологий двойного назначения — от приручения огня 5000 лет назад до изобретения парового двигателя, электричества и ядерной энергии. Общество каждый раз находило регуляторные и этические механизмы контроля, и с ИИ ситуация повторится, внушая Натараджяну рациональный оптимизм.