ИИ-доктор в кармане: как Google создает мультимодальный Med-PaLM M

Создание универсального искусственного интеллекта для медицины долгое время казалось делом далекого будущего, однако последние разработки исследовательских групп переворачивают эти представления. В новом выпуске подкаста «The Cognitive Revolution» ведущие исследователи из Google Вивек Натараджан (Vivek Natarajan) и Тао Ту (Tao Tu) подробно рассказали о создании Med-PaLM M — первой по-настоящему мультимодальной медицинской нейросети, способной обрабатывать текст, изображения и даже генетические данные. Этот прорыв приближает человечество к созданию персонального ИИ-доктора, доступного каждому жителю планеты.

🩺 От текста к мультимодальности: рождение Med-PaLM M 0:00

Медицина по своей природе является глубоко мультимодальной дисциплиной, поскольку практикующие врачи ежедневно анализируют разнородные потоки информации — от жалоб пациентов и результатов лабораторных тестов до сложных радиологических снимков и данных геномики. Предыдущие версии специализированных медицинских систем от Google, включая Med-PaLM и Med-PaLM 2, ограничивались исключительно текстовым интерфейсом. Новая модель Med-PaLM M преодолевает это ограничение, объединяя под одним набором весов способность решать 14 различных медицинских задач.

Одним из главных подтверждений эффективности новой системы стали результаты генерации радиологических отчетов. Согласно исследованию Google, отчеты, сгенерированные искусственным интеллектом, практикующие врачи-радиологи предпочитали текстам, написанным коллегами-людьми, более чем в 40% случаев.

По мнению ведущего подкаста Натана Либенса, подобные темпы прогресса позволяют рассчитывать на появление полноценного ИИ-доктора в кармане каждого человека по всему миру в течение ближайших нескольких лет. Ожидается, что такая система сможет не просто понимать язык пациента, но и интерпретировать его геном на суперчеловеческом уровне.

🧱 На плечах гигантов: архитектура и базовые модели 5:50

Как подчеркнул Вивек Натараджан, стремительный успех проекта стал возможен благодаря тому, что команда «стояла на плечах гигантов» внутри самой компании Google. Разработка опирается на технологический фундамент, заложенный революцией трансформеров в 2017 году, и масштабные языковые модели семейства PaLM.

В качестве архитектурной основы для Med-PaLM M была выбрана модель PaLM-E — мультимодальная базовая система, изначально спроектированная Google для управления робототехникой (например, для навигации роботов на кухне и манипуляций с объектами). Концептуально исследователи ориентировались на проект Gato от DeepMind, который доказал возможность существования универсального агента, способного одновременно играть в игры Atari, подписывать картинки и управлять роботизированной рукой.

В ходе экспериментов модель была масштабирована в трех конфигурациях:

12B — базовая версия, объединяющая языковую модель PaLM объемом 8 миллиардов параметров и визуальный трансформер (ViT) на 4 миллиарда параметров.
84B — промежуточная конфигурация повышенной точности.
562B — флагманская тяжелая модель для комплексных задач.

При этом, по словам Тао Ту, базовая модель PaLM-E «из коробки» не обладала никакими медицинскими знаниями и демонстрировала крайне низкие результаты до специализированной настройки. Это подтверждает гипотезу авторов о критической важности глубокого медицинского файнтюнинга.

🧬 Кодирование ДНК как картинки: наследие Deep Variant 9:30

Помимо работы с клиническим текстом, дерматологическими снимками, патогистологическими слайдами, маммограммами и рентгенографией грудной клетки, Med-PaLM M получила уникальную способность интерпретировать геномные данные. Для интеграции геномики разработчики использовали нестандартный подход, заимствованный у коллег из команды Google Health.

В 2018–2019 годах команда Google Health создала систему Deep Variant для выявления генетических вариантов (variant calling). Поскольку в те годы компьютерное зрение было развито лучше языковых моделей, инженеры закодировали генетические сигналы в виде трехмерных тензоров (фактически превратив ДНК в изображения), чтобы их могли обрабатывать классические архитектуры вроде Inception и ResNet. Эта система ранее доказала свою феноменальную точность, выиграв конкурс Precision FDA Challenge и став ключевым компонентом исследования Стэнфордского университета под руководством профессора Эуана Эшли (Euan Ashley), установившего мировой рекорд скорости секвенирования генома.

Тао Ту пояснил механизмы адаптации этой технологии в Med-PaLM M:

Генетическая информация преобразуется в трехмерный тензор по методологии Deep Variant.
Производится изменение формы (reshaping) матрицы для обеспечения совместимости с энкодером Vision Transformer (ViT).
Модель обучается обрабатывать эти данные с нуля (weights from scratch) в рамках общего генеративного цикла.

Благодаря такому подходу, как отмечают создатели, удалось отказаться от старых классификационных векторов в пользу единого текстового пространства: теперь нейросеть может прямо написать текстом, является ли обнаруженный вариант ДНК опасной мутацией.

⚙️ Инфраструктура Pathways и магия параллелизма 28:10

Обучение столь масштабной системы требовало колоссальных вычислительных мощностей. Оркестрация процессов происходила через внутреннюю платформу Google под названием Pathways, создание которой Вивек Натараджан назвал реализацией «мечты Джеффа Дина». Pathways представляет собой систему крупномасштабного управления распределенными вычислениями, позволяющую эффективно распределять обучение мультимодальных моделей на тысячи специализированных ИИ-чипов TPU.

Программный стек разработки базировался на библиотеке Jax и компиляторе XLA (Accelerated Linear Algebra). С технической точки зрения процесс оптимизации включал несколько уровней абстракции:

Интерфейс Jax NumPy, позволяющий инженерам вносить низкоуровневые изменения в код и использовать инструменты автоматического дифференцирования (Auto grad).
Фреймворки Flax и Pax, оптимизированные под Pathways для настройки параллелизма данных и моделей.
3D-сетка (3D Mesh), распределяющая параметры гигантской модели 562B по разным физическим чипам, поскольку она физически не помещается на один процессор.

Для достижения стабильности Тао Ту пришлось провести более 300 автономных экспериментов за четыре месяца только на базовой модели 12B. Основными вызовами стали взрывы градиентов (gradient instability) при смешивании разнородных задач и необходимость ручного подбора пропорций разных датасетов в общей обучающей выборке. Если бы модель видела слишком много рентгеновских снимков, это могло бы безвозвратно ухудшить ее способность распознавать геномные последовательности.

📊 Парадоксы масштабирования и узкие места ИИ 40:12

В ходе тестирования исследователи столкнулись с неожиданным феноменом: увеличение языковой составляющей модели до 562 миллиардов параметров не привело к пропорциональному росту качества на ряде задач по сравнению с версией 84B. Как объяснил Вивек Натараджан, в мультимодальных системах законы предсказуемого снижения потерь (scaling laws), идеально работающие для чисто текстовых моделей типа GPT-4, начинают давать сбои.

Главным узким местом (bottleneck) системы оказался визуальный энкодер Vision Transformer. В то время как текстовая емкость PaLM масштабировалась экспоненциально, самый крупный доступный визуальный энкодер ViT имел объем всего 22 миллиарда параметров. Кроме того, этот энкодер был предварительно обучен на терабайтах обычных бытовых картинок из интернета (natural images), распределение которых кардинально отличается от специфических медицинских снимков. В задачах классификации (например, в дерматологии, где модель должна выдать простое текстовое слово «экзема»), когнитивная емкость огромной языковой модели оказалась избыточной, а точность уперлась в возможности распознавания деталей на картинке энкодером ViT.

Общие объемы данных, задействованные в обучении, выглядят следующим образом:

Общее число бенчмарк-сэмплов: около 1 миллиона.
Объем текстовых токенов: порядка 90 миллионов.
Вес одного изображения в токенах: 256 единиц.
Затраты на вычисления: от 1% до 10% от стоимости обучения базовой модели PaLM.

Эксперименты также развенчали миф об эффективности экономичных методов адаптации вроде LoRA. По данным команды Google, полное сквозное обучение (end-to-end fine-tuning) всех 562 миллиардов параметров дает существенно более быструю конвергенцию градиентов и итоговое качество выше, чем частичная заморозка весов или использование низкоранговых адаптеров, при условии наличия достаточного объема качественных данных.

🔍 Эмерджентные способности: кейс с туберкулезом 1:02:40

Внутри исследовательской команды велась жаркая дискуссия вокруг корректности использования термина «эмерджентные способности» (emergent capabilities), особенно на фоне недавних научных публикаций, ставящих под сомнение этот феномен. Тем не менее, Med-PaLM M продемонстрировала поведение, которое Вивек Натараджан считает классическим примером эмерджентности — появление непредвиденного сложного навыка при увеличении масштаба модели.

Ярким примером стал эксперимент с диагностикой туберкулеза:

В процессе обучения рентгенографии модель натаскивали исключительно на распознавание 14 распространенных клинических патологий (таких как кардиомегалия — увеличение сердца). Метка «туберкулез» в обучающем наборе полностью отсутствовала.
Когда модели передали рентгеновский снимок пациента с туберкулезом, полученный из совершенно другого медицинского центра, Med-PaLM M не просто обнаружила аномалию, но и детально текстово описала характер поражения легких и точно указала геометрические координаты локализации очага заболевания.
Этот навык полностью отсутствовал у младшей модели 12B (она не могла сгенерировать описание), но четко проявился у версий 84B и 562B.

Тао Ту, однако, высказал более сдержанную позицию. Он отметил, что это впечатляющий пример интерполяции внутри знакомого распределения данных (поскольку модель хорошо знала, как выглядит рентген грудной клетки в целом), подкрепленный текстовыми знаниями о туберкулезе из медицинской литературы, загруженной в текстовую базу PaLM. По мнению Ту, по-настоящему революционным станет момент, когда ИИ сможет экстраполировать знания наружу — например, впервые увидев снимок глазного дна (fundus image) без предварительного обучения, сможет верно описать его патологии, опираясь исключительно на текстовую теорию.

⚖️ Регуляторный тупик и будущее клинических испытаний 1:11:09

Интеграция мультимодальных генеративных систем в реальную врачебную практику упирается в жесткий регуляторный тупик. Существующие протоколы сертификации программного обеспечения как медицинского изделия (SaMD) в структурах вроде FDA (США) или регуляторных органах ЕС создавались под узкоспециализированные классификаторы. Старые правила требуют четкого понимания границ возможностей системы: например, алгоритм умеет искать только рак груди на маммограммах и выдает строго контролируемый процент ошибок.

С генеративным ИИ общего назначения этот подход не работает, так как спектр его потенциальных интеракций с пользователем бесконечен. Модель невозможно сертифицировать по старым лекалам, поскольку дефиниции FDA просто не соответствуют архитектуре современных нейросетей.

В качестве промежуточного решения Google выбрал стратегию постепенного развертывания через программу «доверенных тестировщиков» (trusted testers) для Med-PaLM 2. Модель передается ограниченному кругу практикующих клиницистов для сбора обратной связи в некритических сценариях. Параллельно ведется масштабная работа по созданию состязательных медицинских промптов (adversarial testing) — специальных «ловушек», предназначенных для намеренного провоцирования галлюцинаций ИИ, чтобы выявить риски усугубления неравенства в здравоохранении из-за смещенных исторических данных в обучающей выборке.

По мнению Вивека Натаражана, медицинский домен имеет одно скрытое преимущество перед универсальными чат-ботами типа GPT-4: контекст медицины строго ограничен научными фактами, что делает задачу выстраивания защитных барьеров (guardrails) более контролируемой технически.

🌍 Демократизация медицины: личная мотивация создателей 1:17:02

В основе сложнейшего технологического проекта лежит глубокая личная драма и академический интерес его создателей. Вивек Натараджан поделился воспоминаниями о своем детстве, проведенном в бедных регионах Индии. В тех местах визит к врачу для большинства людей оставался недостижимой роскошью: поездка в госпиталь требовала пройти 30–40 миль пешком по экстремальной жаре, лишала дневного заработка и обрекала семью на голод. Как следствие, миллионы людей не встречали доктора за всю свою жизнь, умирая от недиагностированных на ранних стадиях хронических заболеваний.

По мнению Натаражана, искусственный интеллект — единственная индустся в мире, способная одновременно решить три главные системные боли глобального здравоохранения: доступность (access), стоимость (cost) и качество (quality) медицинской помощи.

Тао Ту, имеющий академический бэкграунд в области нейробиологии (neuroscience), видит миссию Med-PaLM M еще шире — как инструмент форсирования фундаментальных научных открытий. Модель уже изучила миллионы статей медицинской библиотеки PubMed. В будущем синергия между зрением, текстом и геномикой должна позволить ИИ выступать в роли автономного исследователя, способного находить новые генетические биомаркеры для неизлечимых сегодня патологий, таких как болезни Альцгеймера и Паркинсона, трансформируя наше понимание биологии человеческого вида.