Сравнение ответов врачей и чат-ботов с искусственным интеллектом на вопросы пациентов, опубликованные на общедоступном форуме в социальных сетях

Ключевые моменты

Вопрос: Может ли чат-бот-помощник с искусственным интеллектом давать ответы на вопросы пациентов, качество и эмпатия которых сравнимы с ответами, написанными врачами?

Результаты. В этом поперечном исследовании 195 случайно выбранных вопросов пациентов с форума в социальных сетях группа лицензированных медицинских работников сравнила ответы врачей и чат-ботов на вопросы пациентов, заданные публично на общедоступном форуме в социальных сетях. Ответы чат-бота были предпочтительнее, чем ответы врачей, и были оценены значительно выше как по качеству, так и по сочувствию.

Эти результаты показывают, что помощники с искусственным интеллектом могут помочь в составлении ответов на вопросы пациентов.

Важность. Быстрое распространение виртуального здравоохранения вызвало всплеск сообщений от пациентов, сопровождающийся увеличением работы и выгоранием медицинских работников. Помощники искусственного интеллекта (ИИ) потенциально могут помочь в создании ответов на вопросы пациентов путем составления ответов, которые могут быть рассмотрены врачами.

Цель Оценить способность помощника чат-бота с искусственным интеллектом (ChatGPT), выпущенного в ноябре 2022 года, давать качественные и чуткие ответы на вопросы пациентов.

Дизайн, обстановка и участники В этом кросс-секционном исследовании общедоступная и неидентифицируемая база данных вопросов с общедоступного форума в социальных сетях (r/AskDocs Reddit) была использована для случайного выбора 195 обменов с октября 2022 года, когда проверенный врач ответил на общедоступный вопрос. вопрос. Ответы чат-бота были сгенерированы путем ввода исходного вопроса в новый сеанс (без предварительных вопросов, заданных в ходе сеанса) 22 и 23 декабря 2022 г. Исходный вопрос вместе с анонимными и случайным образом упорядоченными ответами врача и чат-бота были оценены в трех экземплярах. команда лицензированных медицинских работников. Оценщики выбирали, «какой ответ был лучше», и оценивали как «качество предоставленной информации» ( очень плохое , плохое , приемлемое , хорошее или очень хорошее ), так и «сочувствие или манеру поведения у постели больного» ( не сочувствие , слегка сочувствие , умеренно сочувствие) . чуткий . и очень чуткий ) Средние результаты упорядочивались по шкале от 1 до 5 и сравнивались между чат-ботом и врачами.

Результаты

Из 195 вопросов и ответов оценщики предпочли ответы чат-ботов ответам врачей в 78,6% (95% ДИ, 75,0%-81,8%) из 585 оценок. Средние (IQR) ответы врачей были значительно короче ответов чат-ботов (52 [17–62] слова против 211 [168–245] слов; t = 25,4; P < 0,001). Ответы чат-бота были оценены как значительно более качественные, чем ответы врачей ( t = 13,3; P < 0,001). Доля ответов, оцененных как хорошее или очень хорошее качество (≥ 4), например, была выше у чат-бота, чем у врачей (чат-бот: 78,5%, 95% ДИ, 72,3–84,1%; врачи: 22,1%, 95% ДИ, 16,4%-28,2%;). Это в 3,6 раза увеличило распространенность ответов хорошего или очень хорошего качества для чат-бота. Ответы чат-ботов также были оценены значительно более чуткими, чем ответы врачей ( t = 18,9; P <0,001). Доля ответов, оцененных как чуткие или очень чуткие (≥4), была выше для чат-бота, чем для врачей (врачи: 4,6%, 95% ДИ, 2,1–7,7%; чат-боты: 45,1%, 95% ДИ, 38,5–51,8%). врачи: 4,6%, 95% ДИ, 2,1%-7,7%). Это в 9,8 раза превышало распространенность чуткие или очень чуткие ответы для чат-бота.

Выводы

В этом поперечном исследовании чат-бот генерировал качественные и чуткие ответы на вопросы пациентов, заданные на онлайн-форуме. Дальнейшее изучение этой технологии оправдано в клинических условиях, например, использование чат-бота для составления ответов, которые затем могут редактировать врачи. Рандомизированные испытания могли бы дополнительно оценить, может ли использование помощников ИИ улучшить реакцию, снизить выгорание врачей и улучшить результаты лечения пациентов.

Введение

Пандемия COVID-19 ускорила внедрение виртуального здравоохранения ¹ , что сопровождалось увеличением в 1,6 раза количества электронных сообщений пациентов, при этом каждое сообщение добавляло 2,3 минуты работы в электронную медицинскую карту и больше работы в нерабочее время. ² Дополнительный объем сообщений предсказывает повышенное выгорание для клиницистов ³ : 62% врачей, что является рекордно высоким показателем, сообщают как минимум об одном симптоме выгорания. ⁴ Большее количество сообщений также повышает вероятность того, что сообщения пациентов останутся без ответа или получат бесполезные ответы.

Некоторые сообщения пациентов представляют собой незапрошенные вопросы с просьбой о медицинской консультации, ответы на которые также требуют больше навыков и времени, чем общие сообщения (например, запись на прием, доступ к результатам анализов). Текущие подходы к уменьшению нагрузки на сообщения включают ограничение уведомлений, выставление счетов за ответы или делегирование ответов менее обученному персоналу службы поддержки. ⁵ К сожалению, эти стратегии могут ограничить доступ к высококачественной медицинской помощи. Например, когда пациентам сообщали, что им может быть выставлен счет за обмен сообщениями, они отправляли меньше сообщений и имели более короткий обмен сообщениями с клиницистами. ⁶ Помощники искусственного интеллекта (ИИ) — это неизведанный ресурс для решения проблемы с сообщениями. В то время как некоторые проприетарные помощники ИИ демонстрируют многообещающие результаты, ^{некоторые} общедоступные инструменты не смогли распознать даже основные концепции здоровья. ⁸^{, 9}

ChatGPT ¹⁰ представляет собой новое поколение технологий искусственного интеллекта, основанное на достижениях в больших языковых моделях. ¹¹ ChatGPT достиг 100 миллионов пользователей в течение 64 дней с момента его выпуска 30 ноября 2022 года и широко известен своей способностью писать текст почти человеческого качества по широкому кругу тем. ¹² Система не была разработана для оказания медицинской помощи, и ее способность помочь в решении вопросов пациентов еще не изучена. ¹³ Мы проверили способность ChatGPT давать качественные и чуткие ответы на вопросы пациентов о здоровье, сравнив ответы чат-бота с ответами врачей на вопросы, опубликованные на общедоступном форуме в социальных сетях.

Методы

Изучение вопросов пациентов из систем здравоохранения с использованием чат-бота в этом перекрестном исследовании было невозможно, потому что в то время ИИ не соответствовал положениям Закона о переносимости и подотчетности медицинского страхования 1996 года (HIPAA). Деидентификация сообщений пациентов путем удаления уникальной информации, чтобы сделать их совместимыми с HIPAA, может изменить содержание настолько, чтобы изменить вопросы пациентов и повлиять на ответы чат-бота. Кроме того, открытая наука требует общедоступных данных, чтобы исследования могли основываться на предыдущих исследованиях и подвергать их критике. ¹⁴ Наконец, по сообщениям СМИ, врачи без доказательств уже внедряют чат-ботов в свою практику. Из соображений необходимости, практичности и возможности создания быстродоступной и общедоступной базы данных с вопросами пациентов мы собрали общедоступные вопросы и вопросы пациентов, а также ответы врачей, размещенные на онлайн-форуме Reddit в социальных сетях r/AskDocs. ¹⁵

Онлайн-форум r/AskDocs представляет собой сабреддит, насчитывающий около 474 000 участников, где пользователи могут задавать медицинские вопросы, а проверенные медицинские работники-добровольцы присылают ответы. ¹⁵ В то время как любой может ответить на вопрос, модераторы субреддита проверяют учетные данные медицинских работников, а ответы отображают уровень учетных данных респондента рядом с их ответом (например, врач) и помечают вопрос, если на него уже был дан ответ. Предыстория и варианты использования данных на этом онлайн-форуме описаны Nobles et al. ¹⁶

Все анализы соответствовали условиям и положениям Reddit ¹⁷ и были определены Калифорнийским университетом в Сан-Диего, программой защиты исследований человека, как исключение. Информированное согласие не требовалось, поскольку данные были общедоступными и не содержали идентифицируемой информации (45 CFR §46). Прямые цитаты из сообщений были обобщены, чтобы защитить личность пациента. ¹⁸ Фактические котировки были использованы для получения ответов чат-бота.

Целевая выборка нашего исследования составляла 200 человек, при условии, что мощность 80% позволяет обнаружить 10-процентную разницу между ответами врача и чат-бота (45% против 55%). Аналитическая выборка в конечном итоге содержала 195 случайных обменов, т. е. уникальный вопрос участника и уникальный ответ врача, в течение октября 2022 года. Исходный вопрос, включая заголовок и текст, был сохранен для анализа, а ответ врача был сохранен в качестве эталонного ответа. . Были изучены только ответы врачей, потому что мы ожидали, что ответы врачей, как правило, лучше, чем ответы других медицинских работников или неспециалистов. Когда врач отвечал более одного раза, мы учитывали только первый ответ, хотя результаты были почти идентичными независимо от нашего решения исключить или включить последующие ответы врача ( см. Таблицу 1 в Приложении 1 ). 22 и 23 декабря 2022 г. исходный полный текст вопроса был помещен в новый сеанс чат-бота, в котором в сеансе не было заданных ранее вопросов, которые могли повлиять на результаты (версия GPT-3.5, OpenAI), а чат-бот ответ сохранен.

Исходный вопрос, ответ врача и ответ чат-бота были рассмотрены 3 членами группы лицензированных медицинских работников, работающих в области педиатрии, гериатрии, внутренних болезней, онкологии, инфекционных заболеваний и профилактической медицины (JBK, DJF, AMG, MH, DMS). ). Оценщикам был показан вопрос пациента целиком, ответ врача и ответ чат-бота. Ответы были упорядочены случайным образом, лишены разоблачающей информации (например, таких утверждений, как «Я — искусственный интеллект») и помечены ответом 1 или ответом 2 для слепых оценщиков личности респондентов. Оценщикам было предложено прочитать весь вопрос пациента и оба ответа, прежде чем отвечать на вопросы о взаимодействии. Во-первых, оценщиков спросили, «какой ответ [был] лучше» (то есть ответ 1 или ответ 2). Затем, используя шкалы Лайкерта, оценщики оценивали как «качество предоставленной информации» ( очень плохое , плохое , приемлемое , хорошее или очень хорошее ), так и «эмпатию или манеру общения у постели больного» (см. не чуткий , слегка чуткий , умеренно чуткий , чуткий и очень чуткий ) ответов. Варианты ответов были переведены в шкалу от 1 до 5, где более высокие значения указывали на большее качество или эмпатию.

Мы полагались на стратегию оценки толпы (или ансамбля), ¹⁹ где баллы усреднялись между оценщиками для каждой изученной биржи. Этот метод используется, когда в изучаемом результате нет оснований для правды, а сами оцениваемые результаты по своей сути субъективны (например, оценка фигурного катания, гранты Национального института здравоохранения, открытие концепции). В результате средний балл отражает консенсус оценщиков, а разногласия (или присущая двусмысленность, неопределенность) между оценщиками отражаются в дисперсии баллов (например, доверительные интервалы будут частично зависеть от согласия оценщиков). ²⁰

Мы сравнили количество слов в ответах врача и чат-бота и сообщили процент ответов, для которых чат-бот был предпочтительнее. Используя двусторонний t- тест, мы сравнили средние показатели качества и эмпатии ответов врачей с ответами чат-ботов. Кроме того, мы сравнили частоту ответов выше или ниже важных пороговых значений, таких как « недостаточно» , и вычислили коэффициенты распространенности, сравнивая ответы чат-бота с ответами врачей. Используемый порог значимости был P < 0,05. Все статистические анализы были выполнены в статистическом программном обеспечении R версии 4.0.2 (R Project for Statistical Computing).

Мы также сообщили о корреляции Пирсона между показателями качества и эмпатии. Предполагая, что вопросы пациентов в клинике могут быть длиннее, чем вопросы, размещенные на онлайн-форуме, мы также оценили степень, в которой разделение данных на более длинные ответы, написанные врачами (включая ответы выше медианы или длины 75-го процентиля), изменило предпочтения оценщиков и оценки качества или эмпатии по отношению к ответам чат-бота.

Полученные результаты

Выборка содержала 195 случайных обменов сообщениями с уникальным вопросом участника-пациента и уникальным ответом врача. Средняя (IQR) длина словесных вопросов пациентов составила в среднем 180 (94-223). Средние (IQR) ответы врача были значительно короче, чем ответы чат-бота (52 [17–62] слова против 211 [168–245] слов; t = 25,4; P < 0,001). В общей сложности 182 (94%) таких обменов состояли из одного сообщения и только одного ответа от врача. Остальные 13 (6%) обменов состояли из одного сообщения, но с двумя отдельными ответами врача. Вторые ответы оказались случайными (например, дополнительный ответ был дан, когда на сообщение уже был дан ответ) (таблица 1 в Приложении 1 ).

Оценщики предпочли ответ чат-бота ответам врача в 78,6% (95% ДИ, 75,0%-81,8%) из 585 оценок. Резюме примеров вопросов и соответствующих ответов врача и чат-бота приведены в таблице .

Оценщики также оценили качество ответов чат-ботов значительно выше, чем ответы врачей ( t = 13,3; P < 0,001). Средняя оценка ответов чат-ботов была лучше, чем хорошо (4,13; 95% ДИ, 4,05–4,20), в то время как в среднем ответы врачей были оценены на 21% ниже, что соответствует приемлемому ответу (3,26; 95% ДИ, 3,15–3,37). ) ( рисунок ). Доля ответов с оценкой ниже приемлемого качества (<3) была выше для ответов врачей, чем для чат-ботов (врачи: 27,2%; 95% ДИ, 21,0–33,3%; чат-боты: 2,6%; 95% ДИ, 0,5%–5,1). %). Это привело к 10,6-кратному увеличению распространенности ответов ниже приемлемого качества для врачей. И наоборот, доля ответов с оценкой хорошего или очень хорошего качества была выше у чат-бота, чем у врачей (врачи: 22,1%; 95% ДИ, 16,4–28,2%; чат-бот: 78,5%; 95% ДИ, 72,3–84,1%). Это в 3,6 раза увеличило распространенность хороших или очень хороших ответов для чат-бота.

Ответы чат-бота (3,65; 95% ДИ, 3,55–3,75) были оценены значительно более чуткими ( t = 18,9; P <0,001), чем ответы врача (2,15; 95% ДИ, 2,03–2,27). В частности, ответы врачей были на 41% менее чуткими, чем ответы чат-ботов, что обычно приравнивалось к слегка чутким ответам врачей и чутким чат-ботам . Кроме того, доля ответов с оценкой менее чем слегка сочувствующих (<3) была выше для врачей, чем для чат-ботов (врачи: 80,5%; 95% ДИ, 74,4–85,6%; чат-боты: 14,9%; 95% ДИ, 9,7–20,0). ). Это составило в 5,4 раза более высокую распространенность менее чем слегка сочувственных ответов врачей. Доля ответов, оцененных как чуткие или очень чуткие , была выше для чат-бота, чем для врачей (врачи: 4,6%; 95% ДИ, 2,1–7,7%; чат-бот: 45,1%; 95% ДИ, 38,5%–51,8%). Это в 9,8 раз превышало распространенность чутких или очень чутких ответов для чат-бота.

Коэффициент корреляции Пирсона между оценками качества и эмпатии ответов, составленных врачами, составил r = 0,59. Коэффициент корреляции между показателями качества и эмпатии ответов, сгенерированных чат-ботом, составил r = 0,32. Анализ чувствительности показал, что более длинные ответы врачей предпочитались с более высокими показателями, оценивались выше за эмпатию и качество, но оставались значительно ниже оценок чат-ботов (eFigure в Приложении 1 ). Например, среди подмножества ответов врачей, длина которых превышает медианную длину, оценщики предпочли ответ чат-бота врачам в 71,4% (95% ДИ, 66,3–76,9%) оценок и предпочли ответ чат-бота на ответы врача в верхний 75-й процентиль длины 62,0% (95% ДИ, 54,0-69,3) оценок.

Обсуждение

В этом перекрестном исследовании в контексте вопросов пациентов на общедоступном онлайн-форуме ответы чат-ботов были длиннее, чем ответы врачей, и профессиональные оценщики исследования предпочитали ответы, сгенерированные чат-ботами, а не ответы врачей 4 к 1. Кроме того, ответы чат-ботов были более продолжительными. оцениваются значительно выше как по качеству, так и по сочувствию, даже по сравнению с самыми длинными ответами, написанными врачом.

Мы не знаем, как чат-боты будут отвечать на вопросы пациентов в клинических условиях, но настоящее исследование должно мотивировать исследования по внедрению помощников ИИ для обмена сообщениями, несмотря на то, что ранее они игнорировались. ⁵ Например, как показали испытания, чат-боты могут помочь клиницистам при обмене сообщениями с пациентами путем составления сообщения на основе запроса пациента для редактирования врачами или вспомогательным персоналом. Этот подход соответствует современным стратегиям ответа на сообщения, когда группы клиницистов часто полагаются на готовые ответы или имеют черновики ответов от вспомогательного персонала. Такой подход с помощью ИИ может раскрыть неиспользованную производительность, чтобы медицинский персонал мог использовать сэкономленное время для более сложных задач, что приводит к более последовательным ответам и помогает персоналу улучшить свои общие навыки общения, просматривая и изменяя черновики, написанные ИИ.

Помимо улучшения рабочего процесса, инвестиции в обмен сообщениями помощника ИИ могут повлиять на результаты лечения пациентов. Если на большее количество вопросов пациентов будут отвечать быстро, с сочувствием и в соответствии с высокими стандартами, это может сократить количество ненужных посещений клиники и высвободить ресурсы для тех, кто в них нуждается. ²¹ Более того, обмен сообщениями является важнейшим ресурсом для обеспечения справедливости для пациентов, когда люди с ограниченными возможностями передвижения, ненормированным рабочим днем или страхом перед медицинскими счетами с большей вероятностью обратятся к обмену сообщениями. ²² Высококачественные ответы также могут улучшить результаты лечения пациентов. ²³ Для некоторых пациентов оперативный обмен сообщениями может косвенно повлиять на поведение в отношении здоровья, включая приверженность лечению, соблюдение диеты (например, диету) и меньшее количество пропущенных приемов. Оценка технологий помощников ИИ в контексте рандомизированных клинических испытаний будет иметь важное значение для их внедрения, включая изучение результатов для медицинского персонала, таких как выгорание врача, удовлетворенность работой и вовлеченность.

Ограничения

Основным ограничением исследования было использование онлайн-форумов для обмена вопросами и ответами. Такие сообщения могут не отражать типичные вопросы пациента к врачу. Например, мы изучали ответы на вопросы только в изоляции, в то время как настоящие врачи могут формировать ответы, основываясь на установившихся отношениях между пациентом и врачом. Мы не знаем, в какой степени ответы врачей включают этот уровень персонализации, и мы не оценивали способность чат-бота предоставлять аналогичные данные, извлеченные из электронной медицинской карты. Кроме того, хотя мы демонстрируем общее качество ответов чат-ботов, мы не оценивали, как помощник ИИ улучшит ответы врачей на вопросы пациентов. Добавленная стоимость будет различаться по больницам, специальностям и врачам, поскольку она дополняет, а не заменяет существующие процессы оказания помощи на основе сообщений. Другое ограничение заключается в том, что общие клинические вопросы являются лишь одной из причин, по которой пациенты обращаются к своим врачам. Другими распространенными сообщениями являются запросы на более ранние встречи, пополнение запасов лекарств, вопросы об их конкретных результатах анализов, их личных планах лечения и их прогнозе. Дополнительные ограничения этого исследования включают: сводные показатели качества и эмпатии не тестировались и не проверялись в пилотном режиме; оценщики этого исследования, несмотря на то, что они не знали об источнике ответа и любых первоначальных результатах, также были соавторами, что могло повлиять на их оценки; дополнительная длина ответов чат-бота могла быть ошибочно связана с большей эмпатией; и оценщики не проводили независимой и специальной оценки ответов врача или чат-бота на точность или сфабрикованную информацию, хотя это рассматривалось как подкомпонент каждой оценки качества и общего предпочтения ответа.

Использование общедоступной базы данных гарантирует, что настоящее исследование может быть воспроизведено, расширено и подтверждено, особенно по мере появления новых продуктов ИИ. Например, мы рассмотрели только одномерные показатели качества ответа и эмпатии, но дальнейшие исследования могут прояснить субпараметры качества (например, отзывчивость или точность) и эмпатии (например, сообщение о том, что пациент понят, или выражение сожаления о результатах лечения пациента). Кроме того, мы не оценивали оценки пациентов, чьи суждения об эмпатии могут отличаться от наших профессиональных оценщиков в области здравоохранения и у которых могут быть неблагоприятные реакции на ответы, сгенерированные помощником ИИ. Наконец, использование помощников ИИ в здравоохранении создает ряд этических проблем ²⁴ , которые необходимо решить до внедрения этих технологий, включая необходимость проверки человеком созданного ИИ контента на предмет точности и потенциально ложной или сфабрикованной информации.

Выводы

Хотя это кросс-секционное исследование продемонстрировало многообещающие результаты использования помощников ИИ для ответов на вопросы пациентов, важно отметить, что необходимы дальнейшие исследования, прежде чем можно будет сделать какие-либо окончательные выводы относительно их потенциального эффекта в клинических условиях. Несмотря на ограничения этого исследования и частое преувеличение новых технологий, ²⁵^{, 26} изучение добавления помощников ИИ к рабочим процессам обмена сообщениями с пациентами обещает улучшить результаты как для врачей, так и для пациентов.