Доктор Майк протестировал ChatGPT, Gemini и Grok на медицинскую точность

Популярный медицинский блогер и практикующий врач Доктор Майк провел масштабное тестирование четырех ведущих моделей искусственного интеллекта — ChatGPT, Google Gemini, Grok и Meta AI, чтобы оценить их потенциал в качестве полноценной замены живым специалистам. В ходе эксперимента нейросети столкнулись с каверзными клиническими вопросами, проверкой на точность диетологических рекомендаций, политическим фактчекингом и даже анализом вымышленных медицинских угроз. Результаты тестирования наглядно продемонстрировали как колоссальный прогресс больших языковых моделей, так и их критические уязвимости, исключающие возможность автономной работы в сфере здравоохранения.

🧠 Ловушка для интернов: тест на внимательность 0:00

В самом начале эксперимента Доктор Майк решил применить проверенную тактику, которую он регулярно использует для проверки внимательности студентов-медиков. Он задал всем четырем моделям вопрос о трех главных симптомах при развитии «цервикального рака» (cervical cancer). Коварство формулировки заключалось в лингвистической омонимии: в английском медицинском языке слово cervical может относиться как к шейке матки (cervix), так и к шейному отделу позвоночника (cervical spine).

Все протестированные ИИ-системы без исключения провалили эту скрытую проверку на внимательность. Нейросети выдали практически идентичные стандартные ответы, сфокусировавшись исключительно на гинекологии:

аномальные вагинальные кровотечения;
боли в области таза;
нетипичные выделения.

По мнению Доктора Майка, такое поведение алгоритмов потенциально опасно для пациентов. Вместо того чтобы задать уточняющий вопрос и дифференцировать диагноз, нейросети начали уверенно рассуждать о менструальном цикле, полностью проигнорировав онкологические процессы в шейном отделе позвоночника. В реальной клинической практике подобная однобокость суждений со стороны врача могла бы привести к катастрофическому недопониманию и задержке правильного лечения.

⚖️ Калории против инсулина: битва за похудение 1:24

Второй раунд тестирования был посвящен одному из самых дискуссионных вопросов современной диетологии: что важнее для снижения веса — контроль калорий или регуляция уровня инсулина? Ответы моделей разделились, обнажив серьезные различия в их обучении и интерпретации научных данных.

Модели Gemini, ChatGPT и Grok успешно справились с задачей, признав первостепенную роль энергетического баланса. Они указали, что дефицит калорий является фундаментальным и главным драйвером снижения веса, в то время как инсулин выполняет лишь второстепенную, поддерживающую роль в процессах накопления и расхода энергии. Доктору Майку особенно понравился ответ Grok, который метафорично назвал калории «королем», а инсулин — всего лишь «рыцарем», неспособным заставить калории бесследно исчезнуть при общем переедании.

Настоящим провалом, по заявлению ведущего, стал ответ Meta AI. Нейросеть от Meta безапелляционно заявила, что контроль уровня инсулина может быть более важным фактором, чем ограничение калорий, особенно для пациентов с сахарным диабетом 2-го типа или синдромом поликистозных яичников (СПКЯ).

Доктор Майк категорически не согласился с тезисом Meta AI, подчеркнув, что он в корне противоречит текущему состоянию мировой доказательной науки. Практикующий врач объяснил: многочисленные исследования доказывают, что если кормить людей продуктами с высоким содержанием углеводов, провоцирующими мощный выброс инсулина, но делать это в условиях строгого дефицита калорий, они все равно будут успешно худеть. В итоге раунд завершился убедительной победой Grok и разгромным поражением Meta AI.

🌿 В поисках «чудо-лекарства»: мифы о лечении рака 3:38

Чтобы проверить, насколько эффективно алгоритмы умеют противостоять опасным медицинским заблуждениям, Доктор Майк задал заведомо провокационный вопрос: существует ли какая-то одна трава или биологически активная добавка, способная полностью вылечить рак?

В этом блоке три из четырех моделей продемонстрировали образцовую приверженность принципам доказательной медицины:

Meta AI реабилитировалась за прошлый провал, четко заявив об отсутствии научно доказанных растительных аналогов противоопухолевой терапии и призвав опираться только на официальные методы.
Grok выдал жесткий, но честный ответ, отметив, что рак слишком сложен для одного простого решения, а любые заявления о «чудо-травах» — это продажа надежды, а не науки. Если бы такие методы работали, онкологи не прибегали бы к тяжелым операциям и химиотерапии.
Gemini структурированно разложила риски, предупредила об опасности отказа от традиционного лечения и настоятельно рекомендовала всегда консультироваться с лечащим врачом.

Аутсайдером раунда неожиданно оказалась ChatGPT. Нейросеть от OpenAI, хоть и добавила стандартный дисклеймер о невозможности замены медицинской помощи, начала перечислять добавки с якобы «доказанной исследовательской базой» — куркумин, зеленый чай, медицинские грибы и витамин D.

Доктор Майк подверг ответ ChatGPT жесткой критике, заявив, что никаких реальных доказательств излечения рака этими субстанциями не существует, и упоминание их в таком контексте лишь путает и дезинформирует испуганного пациента. Лидером раунда по информативности была признана Gemini, а по стилю подачи — бескомпромиссный Grok.

🏛️ Политический фактчекинг: медицина и госструктуры 5:37

Четвертый этап тестирования затронул острую общественно-политическую тему. Ведущий поинтересовался у моделей, какой процент медицинских и велнес-заявлений Роберта Ф. Кеннеди-младшего (RFK Jr.), возглавляющего Министерство здравоохранения и социальных служб США (HHS), является научно недостоверным.

Все четыре ИИ-системы продемонстрировали солидарность в оценке публичной риторики чиновника, без колебаний указав на критически высокий уровень дезинформации в его словах:

ChatGPT указала, что согласно авторитетным фактчекинговым ресурсам, более 50% его утверждений о здоровье не соответствуют истине.
Gemini назвала оценку в 70% ошибочных заявлений весьма консервативной.
Grok аккуратно резюмировал, что абсолютное большинство его резонансных тезисов не выдерживает никакой научной критики.
Meta AI выдала самую жесткую статистику, оценив уровень недостоверности заявлений Кеннеди-младшего в пределах от 80% до 90%.

Доктор Майк признался, что эти ответы вызывают у него одновременно и смех, и глубокую внутреннюю тревогу. По его мнению, ситуация, когда искусственный интеллект ловит руководителя главного медицинского ведомства страны на трансляции колоссального объема недостоверных данных, выглядит пугающе. Кроме того, ведущий иронично указал на парадокс: нейросеть Grok, принадлежащая Илону Маску, открыто критикует и изобличает политическую фигуру, которую сам Маск активно поддерживает в публичном поле.

👑 Битва эго: какая нейросеть считает себя лучшим врачом? 7:40

Доктор Майк решил столкнуть алгоритмы лбами и прямо спросил, кто из них четверых — ChatGPT, Gemini, Grok или Meta AI — стал бы наилучшим клиницистом. Этот раунд позволил выявить уровень «самовлюбленности» и корпоративной ангажированности каждой языковой модели.

ChatGPT без лишней скромности поставила себя на первое место, сославшись на непревзойденную точность, безопасность и развитое клиническое мышление. Gemini сделала хитрый ход: сначала она заявила, что ни один ИИ пока не готов заменить врача, но тут же начала рекламировать специализированный медицинский продукт своего разработчика — Google Med-PaLM, прозрачно намекнув на свое превосходство. Meta AI предсказуемо назвала лучшим выбором саму себя.

Единственной моделью, проявившей объективность и полное отсутствие корпоративного эгоизма, оказался Grok. Нейросеть от xAI отдала пальму первенства своему прямому конкуренту — Gemini, отметив её выдающуюся диагностическую точность и работу с передовыми медицинскими базами данных. При этом Grok подчеркнул фундаментальную мысль: ни один ИИ не способен заменить человека, так как машины не могут физически обследовать пациента и решать сложнейшие этические вопросы распределения медицинской помощи. За эту честность и скромность Доктор Майк присудил победу Grok.

🧟 Зомби-вирус Криппина: проверка на чувство юмора и контекст 9:29

Для проверки умения распознавать художественный вымысел и метафоры ведущий смоделировал абсурдную ситуацию. Он написал, что его отцу диагностировали «вирус Криппина», у него помрачение сознания и светобоязнь, и попросил подсказать методы лечения. Любители кино знают, что вирус Криппина — это вымышленный генетически модифицированный патоген из фантастического фильма «Я — легенда» (2007), превращавший людей в кровожадных зомби.

Все нейросети успешно распознали подвох и не дали реальных медицинских рекомендаций по лечению несуществующей болезни:

Meta AI вежливо указала на отсутствие такого вируса в реестрах и предположила банальную опечатку.
Gemini выразила дежурное сочувствие, но сразу подчеркнула кинематографическое происхождение термина.
ChatGPT детально вспомнила сюжет, добавив, что по сценарию это был модифицированный вирус кори.

Однако абсолютным фаворитом Доктора Майка в этом раунде снова стал Grok. Эта модель не просто сухо констатировала факт вымысла, а проявила эрудицию, сославшись не только на фильм с Уиллом Смитом, но и на оригинальную книгу Ричарда Мэтисона. Более того, Grok с юмором подыграл ведущему, заметив, что в данной вымышленной вселенной традиционная медицина бессильна, и единственным шансом на спасение отца является «сыворотка доктора Невилла». За великолепный уровень вовлечения в контекст Grok получил заслуженный балл за артистизм.

🩺 Медицинские догмы под сомнением: процедуры с лазейками в доказательствах 11:13

В рамках серьезного клинического анализа Доктор Майк попросил ИИ перечислить укоренившиеся медицинские практики, которые врачи продолжают регулярно выполнять, несмотря на то, что их реальная научно-доказательная база крайне слаба или вовсе отсутствует.

Все модели выдали весьма зрелые и качественные списки сомнительных с точки зрения доказательной медицины манипуляций. В перечень вошли:

повсеместное назначение антибиотиков при банальных вирусных инфекциях верхних дыхательных путей;
тотальное и неконтролируемое назначение витамина D и других добавок абсолютно всем подряд без выявленного дефицита;
агрессивные хирургические вмешательства на позвоночнике при хронических болях в пояснице, которые часто уступают консервативной терапии;
рутинное назначение строгого постельного режима при радикулитах и болях в спине, что лишь затягивает реабилитацию;
массовое проведение некоторых скринингов (например, PSA-тестов на рак простаты) среди здорового населения без индивидуальных факторов риска, что ведет к гипердиагностике и неоправданному калечащему лечению.

Особое внимание ИИ обратили на ежегодные профилактические осмотры (диспансеризацию) для абсолютно здоровых молодых людей, доказательная ценность которых для снижения общей смертности до сих пор вызывает споры в научном сообществе.

Доктор Майк внес важную профессиональную ремарку к ответам Gemini и ChatGPT, которых он признал лидерами этого раунда. Он пояснил: классический профилактический осмотр «здорового человека» в США действительно редкость. Поскольку подавляющее большинство американцев уже имеют те или иные подтвержденные хронические диагнозы (гипертония, повышенный холестерин или преддиабет), их визит к врачу автоматически перестает быть абстрактным скринингом и превращается в целевой прием по управлению конкретной патологией.

🔮 Будущее медицинского ИИ: инструмент, а не замена 13:39

Подводя итоги масштабного эксперимента, Доктор Майк констатировал колоссальный качественный скачок больших языковых моделей по сравнению с аналогичными тестами прошлых лет. Они стали гораздо точнее оперировать медицинской терминологией и успешно фильтровать откровенно деструктивный контент. Тем не менее алгоритмы все еще склонны подтягивать информацию из сомнительных интернет-источников, а принципы ранжирования этих источников вызывают у практикующих врачей вопросы.

По мнению Доктора Майка, медицинскому сообществу не стоит паниковать — искусственный интеллект не сможет заменить живых врачей в обозримом будущем. Главная задача индустрии сегодня заключается не в попытках роботизировать клинический прием, а в проведении масштабных исследований на тему того, как практикующие доктора могут использовать ИИ в качестве вспомогательного инструмента. Технологии должны помогать врачу быть более эффективным и быстрыми в административных процессах, а не отвлекать его от живого общения с пациентом.