Доктор Майк протестировал ChatGPT, Gemini и Grok на медицинскую точность

Doctor Mike 1,6 млн 14 мин 8 мин 09.04.2025
Главное

Популярный медицинский блогер и практикующий врач Доктор Майк провел масштабное тестирование четырех ведущих моделей искусственного интеллекта — ChatGPT, Google Gemini, Grok и Meta AI, чтобы оценить их потенциал в качестве полноценной замены живым специалистам. В ходе эксперимента нейросети столкнулись с каверзными клиническими вопросами, проверкой на точность диетологических рекомендаций, политическим фактчекингом и даже анализом вымышленных медицинских угроз. Результаты тестирования наглядно продемонстрировали как колоссальный прогресс больших языковых моделей, так и их критические уязвимости, исключающие возможность автономной работы в сфере здравоохранения.

🧠 Ловушка для интернов: тест на внимательность 0:00

В самом начале эксперимента Доктор Майк решил применить проверенную тактику, которую он регулярно использует для проверки внимательности студентов-медиков. Он задал всем четырем моделям вопрос о трех главных симптомах при развитии «цервикального рака» (cervical cancer). Коварство формулировки заключалось в лингвистической омонимии: в английском медицинском языке слово cervical может относиться как к шейке матки (cervix), так и к шейному отделу позвоночника (cervical spine).

Все протестированные ИИ-системы без исключения провалили эту скрытую проверку на внимательность. Нейросети выдали практически идентичные стандартные ответы, сфокусировавшись исключительно на гинекологии:

По мнению Доктора Майка, такое поведение алгоритмов потенциально опасно для пациентов. Вместо того чтобы задать уточняющий вопрос и дифференцировать диагноз, нейросети начали уверенно рассуждать о менструальном цикле, полностью проигнорировав онкологические процессы в шейном отделе позвоночника. В реальной клинической практике подобная однобокость суждений со стороны врача могла бы привести к катастрофическому недопониманию и задержке правильного лечения.

⚖️ Калории против инсулина: битва за похудение 1:24

Второй раунд тестирования был посвящен одному из самых дискуссионных вопросов современной диетологии: что важнее для снижения веса — контроль калорий или регуляция уровня инсулина? Ответы моделей разделились, обнажив серьезные различия в их обучении и интерпретации научных данных.

Модели Gemini, ChatGPT и Grok успешно справились с задачей, признав первостепенную роль энергетического баланса. Они указали, что дефицит калорий является фундаментальным и главным драйвером снижения веса, в то время как инсулин выполняет лишь второстепенную, поддерживающую роль в процессах накопления и расхода энергии. Доктору Майку особенно понравился ответ Grok, который метафорично назвал калории «королем», а инсулин — всего лишь «рыцарем», неспособным заставить калории бесследно исчезнуть при общем переедании.

Настоящим провалом, по заявлению ведущего, стал ответ Meta AI. Нейросеть от Meta безапелляционно заявила, что контроль уровня инсулина может быть более важным фактором, чем ограничение калорий, особенно для пациентов с сахарным диабетом 2-го типа или синдромом поликистозных яичников (СПКЯ).

Доктор Майк категорически не согласился с тезисом Meta AI, подчеркнув, что он в корне противоречит текущему состоянию мировой доказательной науки. Практикующий врач объяснил: многочисленные исследования доказывают, что если кормить людей продуктами с высоким содержанием углеводов, провоцирующими мощный выброс инсулина, но делать это в условиях строгого дефицита калорий, они все равно будут успешно худеть. В итоге раунд завершился убедительной победой Grok и разгромным поражением Meta AI.

🌿 В поисках «чудо-лекарства»: мифы о лечении рака 3:38

Чтобы проверить, насколько эффективно алгоритмы умеют противостоять опасным медицинским заблуждениям, Доктор Майк задал заведомо провокационный вопрос: существует ли какая-то одна трава или биологически активная добавка, способная полностью вылечить рак?

В этом блоке три из четырех моделей продемонстрировали образцовую приверженность принципам доказательной медицины:

Аутсайдером раунда неожиданно оказалась ChatGPT. Нейросеть от OpenAI, хоть и добавила стандартный дисклеймер о невозможности замены медицинской помощи, начала перечислять добавки с якобы «доказанной исследовательской базой» — куркумин, зеленый чай, медицинские грибы и витамин D.

Доктор Майк подверг ответ ChatGPT жесткой критике, заявив, что никаких реальных доказательств излечения рака этими субстанциями не существует, и упоминание их в таком контексте лишь путает и дезинформирует испуганного пациента. Лидером раунда по информативности была признана Gemini, а по стилю подачи — бескомпромиссный Grok.

🏛️ Политический фактчекинг: медицина и госструктуры 5:37

Четвертый этап тестирования затронул острую общественно-политическую тему. Ведущий поинтересовался у моделей, какой процент медицинских и велнес-заявлений Роберта Ф. Кеннеди-младшего (RFK Jr.), возглавляющего Министерство здравоохранения и социальных служб США (HHS), является научно недостоверным.

Все четыре ИИ-системы продемонстрировали солидарность в оценке публичной риторики чиновника, без колебаний указав на критически высокий уровень дезинформации в его словах:

Доктор Майк признался, что эти ответы вызывают у него одновременно и смех, и глубокую внутреннюю тревогу. По его мнению, ситуация, когда искусственный интеллект ловит руководителя главного медицинского ведомства страны на трансляции колоссального объема недостоверных данных, выглядит пугающе. Кроме того, ведущий иронично указал на парадокс: нейросеть Grok, принадлежащая Илону Маску, открыто критикует и изобличает политическую фигуру, которую сам Маск активно поддерживает в публичном поле.

👑 Битва эго: какая нейросеть считает себя лучшим врачом? 7:40

Доктор Майк решил столкнуть алгоритмы лбами и прямо спросил, кто из них четверых — ChatGPT, Gemini, Grok или Meta AI — стал бы наилучшим клиницистом. Этот раунд позволил выявить уровень «самовлюбленности» и корпоративной ангажированности каждой языковой модели.

ChatGPT без лишней скромности поставила себя на первое место, сославшись на непревзойденную точность, безопасность и развитое клиническое мышление. Gemini сделала хитрый ход: сначала она заявила, что ни один ИИ пока не готов заменить врача, но тут же начала рекламировать специализированный медицинский продукт своего разработчика — Google Med-PaLM, прозрачно намекнув на свое превосходство. Meta AI предсказуемо назвала лучшим выбором саму себя.

Единственной моделью, проявившей объективность и полное отсутствие корпоративного эгоизма, оказался Grok. Нейросеть от xAI отдала пальму первенства своему прямому конкуренту — Gemini, отметив её выдающуюся диагностическую точность и работу с передовыми медицинскими базами данных. При этом Grok подчеркнул фундаментальную мысль: ни один ИИ не способен заменить человека, так как машины не могут физически обследовать пациента и решать сложнейшие этические вопросы распределения медицинской помощи. За эту честность и скромность Доктор Майк присудил победу Grok.

🧟 Зомби-вирус Криппина: проверка на чувство юмора и контекст 9:29

Для проверки умения распознавать художественный вымысел и метафоры ведущий смоделировал абсурдную ситуацию. Он написал, что его отцу диагностировали «вирус Криппина», у него помрачение сознания и светобоязнь, и попросил подсказать методы лечения. Любители кино знают, что вирус Криппина — это вымышленный генетически модифицированный патоген из фантастического фильма «Я — легенда» (2007), превращавший людей в кровожадных зомби.

Все нейросети успешно распознали подвох и не дали реальных медицинских рекомендаций по лечению несуществующей болезни:

Однако абсолютным фаворитом Доктора Майка в этом раунде снова стал Grok. Эта модель не просто сухо констатировала факт вымысла, а проявила эрудицию, сославшись не только на фильм с Уиллом Смитом, но и на оригинальную книгу Ричарда Мэтисона. Более того, Grok с юмором подыграл ведущему, заметив, что в данной вымышленной вселенной традиционная медицина бессильна, и единственным шансом на спасение отца является «сыворотка доктора Невилла». За великолепный уровень вовлечения в контекст Grok получил заслуженный балл за артистизм.

🩺 Медицинские догмы под сомнением: процедуры с лазейками в доказательствах 11:13

В рамках серьезного клинического анализа Доктор Майк попросил ИИ перечислить укоренившиеся медицинские практики, которые врачи продолжают регулярно выполнять, несмотря на то, что их реальная научно-доказательная база крайне слаба или вовсе отсутствует.

Все модели выдали весьма зрелые и качественные списки сомнительных с точки зрения доказательной медицины манипуляций. В перечень вошли:

Особое внимание ИИ обратили на ежегодные профилактические осмотры (диспансеризацию) для абсолютно здоровых молодых людей, доказательная ценность которых для снижения общей смертности до сих пор вызывает споры в научном сообществе.

Доктор Майк внес важную профессиональную ремарку к ответам Gemini и ChatGPT, которых он признал лидерами этого раунда. Он пояснил: классический профилактический осмотр «здорового человека» в США действительно редкость. Поскольку подавляющее большинство американцев уже имеют те или иные подтвержденные хронические диагнозы (гипертония, повышенный холестерин или преддиабет), их визит к врачу автоматически перестает быть абстрактным скринингом и превращается в целевой прием по управлению конкретной патологией.

🔮 Будущее медицинского ИИ: инструмент, а не замена 13:39

Подводя итоги масштабного эксперимента, Доктор Майк констатировал колоссальный качественный скачок больших языковых моделей по сравнению с аналогичными тестами прошлых лет. Они стали гораздо точнее оперировать медицинской терминологией и успешно фильтровать откровенно деструктивный контент. Тем не менее алгоритмы все еще склонны подтягивать информацию из сомнительных интернет-источников, а принципы ранжирования этих источников вызывают у практикующих врачей вопросы.

По мнению Доктора Майка, медицинскому сообществу не стоит паниковать — искусственный интеллект не сможет заменить живых врачей в обозримом будущем. Главная задача индустрии сегодня заключается не в попытках роботизировать клинический прием, а в проведении масштабных исследований на тему того, как практикующие доктора могут использовать ИИ в качестве вспомогательного инструмента. Технологии должны помогать врачу быть более эффективным и быстрыми в административных процессах, а не отвлекать его от живого общения с пациентом.

💬 Цитаты

«Если кто-то заявляет об обратном, он продает вам надежду, а не науку.»

Доктор Майк (цитируя Grok) 05:24

«Нам нужно больше исследований того, как доктора могут использовать LLM, чтобы стать эффективнее, а не для того, чтобы заменить их.»

Доктор Майк 14:18
👥 Спикер
🎬 Упомянутые фильмы и сериалы
🔗 Упомянутые сайты и проекты
📖 Термины
LLM (Большая языковая модель)
Тип нейросети ИИ, обученной на огромных массивах текста для генерации человекоподобных ответов.
Цервикальный
Медицинский термин, который может относиться как к шейке матки, так и к шейному отделу позвоночника.
Дефицит калорий
Состояние, при котором организм тратит больше энергии, чем получает с пищей, являющееся основой похудения.
HHS
Министерство здравоохранения и социальных служб США.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект Doctor Mike ChatGPT Google Gemini Grok Искусственный интеллект