Тимоти Бикмор о виртуальных агентах с невербальным поведением в медицине

Развитие искусственного интеллекта привело к буму медицинских чат-ботов, однако подавляющее большинство из них общаются с пациентами исключительно посредством текста, что упускает важнейший пласт терапевтического взаимодействия. На семинаре в Стэнфордском университете профессор Северо-Восточного университета Тимоти Бикмор (Timothy Bickmore) представил результаты многолетних исследований, доказывающих, что наделение ИИ-консультантов виртуальным или робототехническим телом кардинально меняет восприятие медицинской информации. Учёный продемонстрировал, как симуляция невербального поведения помогает выстраивать доверие, снижать тревожность и обеспечивать доступ к здравоохранению для уязвимых слоев населения.

🤖 Почему чат-ботам в медицине нужно виртуальное тело 0:09

На недавней конференции CHI было представлено около 70 научных работ и постеров, посвященных чат-ботам, причем 25 из них касались медицинских интервенций, ориентированных на пациентов, а целая сессия была отведена большим языковым моделям (LLM) в здравоохранении. Однако, если сравнить эти технологии с «золотым стандартом» — очным консультированием у врача, обнаруживается фундаментальный недостаток: подавляющее большинство существующих решений полагаются исключительно на текстовый интерфейс. Профессор Тимоти Бикмор из Северо-Восточного университета изучает, как именно медицинские работники используют свое тело при общении с пациентами, и как эти невербальные паттерны можно перенести в автоматизированные системы.

Личный опыт исследователей подтверждает значимость невербалики. Работая в Бостонском медицинском центре (Boston Medical Center) над проектом по расширению доступа к клиническим исследованиям рака для малообеспеченных слоев населения, Тимоти Бикмор анализировал, как онкологические медсестры разъясняют пациентам сложные юридические и медицинские документы информированного согласия. Позже, проходя плановую колоноскопию в клинике с «конвейерной» организацией процессов, учёный на себе ощутил последствия дефицита эмпатии: медсестра просто протянула ему планшет со словами «Вы еще не дали согласие, подпишите здесь». Её позы, проксемика и мимика открыто выражали раздражение и фрустрацию, что полностью перечеркнуло информационную ценность процедуры.

Противоположный, позитивный пример связан с визитом дочери профессора к новому педиатру. Врач придвинула свой стул так, чтобы сидеть на уровне глаз ребенка, посмотрела на нее с теплым, принимающим выражением лица и спросила: «Как поживает твой животик?». Этот простой невербальный маневр мгновенно снял у девочки тревогу и скованность. Согласно многочисленным исследованиям, эмпатия, транслируемая врачом, не только повышает удовлетворенность пациентов, но и напрямую снижает частоту судебных исков о врачебной ошибке. Невербальное поведение в медицине состоит не просто из «языка тела» в виде крупных жестов, а из множества тонких механизмов, которые необходимо симулировать в диалоговых системах.

🤝 Ключевые коммуникативные функции: от заземления до дейксиса 12:17

Для успешного моделирования антропоморфных агентов Тимоти Бикмор предлагает разделять наблюдаемое коммуникативное поведение (например, поднятие брови) и его коммуникативную функцию (выражение удивления или подчеркивание важности слова). Между поведением и функциями существует многозначное соответствие: акцентировать внимание на мысли можно как движением бровей, так и «тактовыми жестами» (двухфазными простыми движениями рук) или изменением высоты тона голоса. В архитектуре медицинских ИИ-агентов исследовательская группа Бикмора выделяет несколько базовых функций невербального взаимодействия.

Первая важнейшая функция — это «заземление» (grounding), то есть процесс, в ходе которого собеседники приходят к взаимному пониманию смысла реплик. Основополагающая работа на эту тему была написана Хербом Кларком и Сьюзан Бреннан в Стэнфордском университете. Они описали иерархию сигналов, подтверждающих понимание: от простого удержания внимания до кивков головы, поддерживающих реплик (backchannel cues) и явного повторения услышанного. Команда Бикмора применила эти принципы в проекте, финансируемом Национальным институтом рака (NCI), цель которого — сбор отчетов об уровне боли у онкопациентов на дому. Вместо стандартных шкал интенсивности боли или сложных опросников вроде МакГилловского болевого опросника, система стремится получить развернутое нарративное описание ощущений.

В качестве тестового стенда использовался робот Furhat, способный реалистично двигать головой и воспроизводить мимику. Система фиксирует речь пользователя и распознает его эмоциональные проявления с помощью компьютерного зрения (библиотека OpenFace), после чего генерирует эмпатичный ответ и координирует движения робота. Лабораторный эксперимент показал:

Пациенты, описывавшие недавние приступы боли роботу с функцией эмпатичного заземления, оценивали взаимодействие значительно выше по стандартизированным шкалам эмпатического слушания, эмоционального интеллекта и рабочего альянса.
В контрольной группе, где робот лишь выдавал стандартные маркеры подтверждения (backchanneling), аналогичные рутинному врачебному опросу, показатели удовлетворенности были существенно ниже.

Второй важнейшей функцией является дейксис — использование языка и невербальных знаков для указания на объекты в контексте (физические предметы, время, место или статус отношений). Группа Бикмора внедрила дейктические жесты в систему совместного принятия решений о контрацепции для афроамериканок. В рамках исследования более 500 женщин взаимодействовали с виртуальным агентом на протяжении 6 месяцев. Экранный персонаж указывал руками на сравнительные таблицы эффективности методов, побочных эффектов и правил приема. В результате интервенция показала статистически значимое превосходство над контрольной группой в переводе пациенток из стадий предразмышления и размышления к реальным действиям по сохранению здоровья.

Дейксис также тестировался с привлечением гуманоидного робота Pepper, способного физически перемещаться в пространстве и указывать на предметы руками. Исследователи воссоздали в лаборатории модель продуктового склада, чтобы проверить, сможет ли робот повлиять на выбор продуктов питания в момент принятия решения. Робот Pepper подъезжал к столу, указывал на брокколи или газировку, смотрел на человека и убеждал сделать выбор в пользу здоровой пищи. Эксперименты с проксемикой (управлением пространством) показали, что:

Любое невербальное убеждение эффективнее его отсутствия.
Когда робот физически подъезжал в зону принятия решений пациента, его убедительность возрастала.
Качество собранного рациона оценивалось по официальному Индексу здорового питания (Healthy Eating Index).

Кроме того, дейксис может осуществляться направлением взгляда. В рамках многостороннего консультирования семейных пар робот Furhat обучал партнеров навыкам активного слушания, переводя взгляд на того, к кому он обращался, и организуя ролевые игры. Комплаентность участников (готовность выполнять упражнения робота) составила около 90%. В сравнительном исследовании робот получил значительно более высокие оценки доверия, вовлеченности и удовлетворенности, чем обычный текстовый интерфейс, а участники после сессии с роботом оценивали своих супругов как более чутких слушателей.

👁️ Передача смыслов, эмоций и робо-тактильность 25:13

Помимо указания на предметы, тело служит для репрезентации абстрактных понятий. На примере работы реального генетического консультанта в Институте рака Дана-Фарбер (Dana-Farber Cancer Institute) исследователи зафиксировали использование метафорических жестов. Объясняя пациентке, что возникновение рака — это длительный процесс накопления клеточных ошибок, а не мгновенное событие, консультант сделала движение руками, имитирующее выключение шнура из розетки или щелканье выключателем света: «Рак — это не выключатель, это не происходит в один миг».

Чтобы научить робота Pepper транслировать сложные концепты (например, относительный риск заболевания с помощью «лестницы рисков»), ученые проанализировали встроенную библиотеку робота из 60 жестов. Не имея изначально заложенных смысловых значений, эти движения тестировались на основе ориентационных метафор, укорененных в человеческой культуре (высокое положение рук ассоциируется со счастьем или большим количеством, низкое — с грустью или дефицитом). Опыты подтвердили: чем выше находились руки робота в пиковой точке жеста, тем более позитивным, возбужденным и масштабным в количественном отношении казался его посыл испытуемым.

Отдельным вызовом для автоматизированного здравоохранения остается физический контакт (touch), активно применяемый медсестрами в палатах интенсивной терапии (в среднем они касаются пациентов дважды в час). Опросы подтверждают, что тактильный контакт повышает удовлетворенность лечением. С опорой на психологические исследования, доказавшие способность людей распознавать эмоции через прикосновения за ширмой лучше, чем это возможно благодаря случайному угадыванию, команда Бикмора разработала экспериментальное устройство.

Система состояла из хаптической перчатки, сжимающей руку пациента с разным давлением и частотой, и антропоморфного манекена, необходимого для того, чтобы у пользователя не возникало ощущения ментального разрыва между говорящим ИИ и механическим сжатием. Результаты исследования эффективности трансляции эмпатии через прикосновения выявили жесткую полярность восприятия:

Пациенты, которые в предварительном опросе заявили о комфортном отношении к прикосновениям незнакомцев, реагировали на сжатия перчатки крайне позитивно, демонстрируя рост доверия к ИИ.
Испытуемые с высоким уровнем барьера к физическому контакту демонстрировали резко негативную реакцию на тактильные действия робота.

Параллельно ученые осваивают технологии виртуальной реальности (VR), где антропоморфного персонажа можно расположить буквально «нос к носу» с пользователем. В VR-эксперименте с выстраиванием доверительных отношений перед началом консультирования агент постепенно сокращал дистанцию с пользователем в процессе взаимного раскрытия информации. На этапе тестирования участников снова помещали в VR, ставили персонажа в дальний угол комнаты и просили подойти к нему для беседы. Пациенты, с которыми робот ранее выстраивал доверие через сближение, подходили к нему на значительно более близкое расстояние, что является объективным поведенческим маркером межличностной близости.

📊 Кому нужнее всего цифровые помощники: фактор медицинской грамотности 34:43

При переносе виртуальных агентов на смартфоны исследователи столкнулись с феноменом жестких индивидуальных предпочтений. В сценариях выполнения простых транзакций (например, фиксация приема таблетки) большинство пользователей предпочли стандартный графический интерфейс (GUI) с кнопками. В нарративных задачах (изучение побочных эффектов лекарства) голоса разделились поровну, при этом около трети испытуемых всегда выбирали только GUI, а 20% — исключительно диалогового агента. Аналогично, культурная адаптация внешности и невербальных сигналов агента под прихожан афроамериканских церквей показала, что люди четко считывают маркеры «своей группы» и отдают им приоритет.

Главный вывод многолетней работы Тимоти Бикмора заключается в том, что воплощенные ИИ-агенты критически важны для социально незащищенных слоев населения с низким уровнем медицинской грамотности (health literacy). В Бостонском медицинском центре доля таких пациентов достигает 40%. Под медицинской грамотностью понимается способность человека находить, обрабатывать, понимать и применять медицинскую информацию — например, тексты на этикетках рецептурных препаратов. По разным оценкам, от 33% до 46% взрослых граждан США обладают низким уровнем такой грамотности, что напрямую коррелирует с низким уровнем компьютерной грамотности и ведет к худшему контролю хронических болезней и частым госпитализациям.

В масштабном клиническом исследовании виртуальной медсестры при выписке из больницы приняли участие 764 человека, из которых почти половина имела официально подтвержденную низкую медицинскую грамотность. По итогам эксперимента:

Большинство таких пациентов заявили, что предпочли бы получать инструкции по уходу при выписке от ИИ-агента, а не от живых врачей или медсестер.
Пациенты с низкой медицинской грамотностью продемонстрировали статистически значимо более высокую удовлетворенность ИИ-агентом по сравнению с высокограмотными пользователями.

Профессор Бикмор объясняет это тем, что медленный, последовательный нарративный формат диалогового агента идеально подходит людям, испытывающим трудности с текстом и клавиатурой. Напротив, технически грамотные люди раздражаются из-за низкой скорости выдачи информации ИИ-агентом, предпочитая быстро находить данные в таблицах и меню.

Преимущества ИИ-агентов были доказаны в двух прямых сравнительных тестах «голова к голове» с традиционными веб-интерфейсами:

Поиск клинических исследований рака: Стандартный поисковик Национального института рака (NCI) с фильтрами и ключевыми словами оказался абсолютно недоступен для лиц с низкой медицинской грамотностью — у них отсутствовала базовая ментальная модель работы поисковых систем. В ходе испытаний в Университете Содружества Виргинии (Virginia Commonwealth University) такие пациенты не смогли выполнить ни одного тестового задания на стандартном сайте. Однако, используя ИИ-агента, который опрашивал их в устной форме, треть пользователей успешно справилась с задачей и выразила высокую удовлетворенность.
Сбор семейного анамнеза: Инструмент My Family Health Portrait, созданный офисом Генерального хирурга США, вызывал огромные затруднения у уязвимых групп. В Бостонском медцентре (в выборке было 74% лиц с низкой медицинской грамотностью) пользователи стандартного сайта смогли заполнить анкету лишь в половине случаев. В то же время, общаясь с виртуальным агентом, практически все участники успешно завершили построение генеалогического древа здоровья, хотя у некоторых процесс занял до одного часа.

🛡️ Безопасность и этика: почему врачи выбирают детерминированные алгоритмы 42:36

Несмотря на триумф современных генеративных моделей, системы, которые команда Бикмора развертывает непосредственно в клиниках для консультирования пациентов, до сих пор базируются на детерминированных, жестко запрограммированных сценариях (rule-based dialogflow) и шаблонной генерации текста. Использование простых технологий обусловлено жесткими требованиями безопасности. Врачи-клиницисты, выступающие соавторами интервенций, настаивают на абсолютной валидации каждой реплики, каждого невербального жеста и просодии, исключая риск галлюцинаций ИИ.

Тем не менее, большие языковые модели активно применяются «за кулисами» для проектирования интерфейсов. Аспиранты Бикмора разрабатывают инструменты, которые с помощью LLM разбивают массивные медицинские тексты и методические материалы на логические цепочки диалогов, автоматически выстраивая формальную структуру скрипта, которую затем вручную редактируют и утверждают сертифицированные врачи перед запуском.

В ходе дискуссии со слушателями семинара был поднят этический вопрос: насколько допустимо со стороны ИИ использовать фразы вроде «Я понимаю вашу боль», имитируя человеческие чувства? Тимоти Бикмор признался, что придерживается утилитарного взгляда: если это объективно улучшает показатели здоровья пациента, интервенция оправдана.

В одном из прошлых исследований Бикмор пошел еще дальше, на протяжении месяца тестируя виртуального тренера по физической активности в двух режимах:

В первом режиме ИИ-персонаж рассказывал вымышленную «личную историю» от первого лица (о ссоре со звучным супругом, поведении детей в школе), симулируя бэкграунд человека.
В контрольном режиме те же самые истории подавались в третьем лице как рассказы о других пациентах.

Пациенты, общавшиеся с роботом, имевшим «личную биографию», разговаривали с ним чаще, охотнее меняли образ жизни и демонстрировали высокую удовлетворенность. При прямом опросе о децепции (обмане) испытуемые заявили, что не чувствовали себя обманутыми — люди сознательно готовы соглашаться на эту «художественную условность» ради психологического комфорта. Тем не менее, Бикмор подчеркнул наличие безусловной этической обязанности разработчиков — открыто декларировать пользователю при первом контакте, что перед ним находится искусственная система, а не человек.

🔮 Будущее здравоохранения: разделение труда между человеком и ИИ 51:43

Касаясь темы технологического барьера и эффекта «зловещей долины» (uncanny valley), участники семинара отметили парадокс: современные LLM идеально знают, что и когда нужно сказать для демонстрации эмпатии, но текущие визуальные аватары и роботы не обладают достаточным количеством степеней свободы для адекватного физического выражения этих смыслов. По прогнозу профессора Бикмора, этот дисбаланс исчезнет в ближайшие годы благодаря развитию генеративных видеомоделей реального времени. Как только генерация photorealistic-аватаров избавится от задержек, ИИ перешагнет барьер «зловещей долины».

Комментируя недавние публикации о том, что ChatGPT демонстрирует более высокий уровень сострадания и лучшие манеры у постели больного (bedside manner), чем практикующие врачи, Бикмор согласился с обоснованностью таких выводов. В больничной реальности медицинский персонал перегружен, находится в постоянной спешке и зачастую общается свысока. Видеозаписи рутинных приемов показывают, что типичная реакция врача на жалобу пациента о боли ограничивается сухим «ага». ИИ-агент же лишен дефицита времени, никогда не демонстрирует высокомерия и готов слушать пациента часами.

Оптимальная долгосрочная модель системы здравоохранения, по мнению участников дискуссии, лежит в плоскости синергии, а не замещения человека машиной:

Живой врач берет на себя наиболее сложные интеллектуальные задачи: постановку окончательного медицинского диагноза и назначение схемы лечения.
ИИ-агент забирает на себя рутинную, но требующую колоссальных временных затрат работу: долгосрочное ведение пациентов с хроническими заболеваниями, поддержку пожилых людей и предоставление непрерывной эмпатической обратной связи.

Примером такой работающей экосистемы служит проект команды Бикмора для пациентов с фибрилляцией предсердий. Больной получает виртуального тренера на смартфон и портативный датчик сердечного ритма. Робот ежедневно монтирует поведенческие паттерны, собирает анамнез и подбадривает человека. В то же время в клинике развернута панель мониторинга (dashboard). Если датчики фиксируют критическое отклонение или пациент сообщает о тревожных симптомах, система мгновенно отправляет оповещение врачу, который оперативно подключается к решению проблемы по телефону. Такое событийно-ориентированное управление позволяет кардинально снизить нагрузку на врачей, сохраняя высочайший уровень безопасности и заботы о людях.