Rendimiento de un chatbot de inteligencia artificial con capacidad de búsqueda web en asistencia relacionada con la cardiología: un estudio de simulación

Año/mes	Html	Pdf	Total
2024 Octubre	2	1	3
2024 Septiembre	95	27	122
2024 Agosto	75	9	84
2024 Julio	45	3	48
2024 Junio	60	9	69
2024 Mayo	84	8	92
2024 Abril	80	4	84
2024 Marzo	108	13	121
2024 Febrero	90	10	100
2024 Enero	132	7	139
2023 Diciembre	226	31	257
2023 Noviembre	166	16	182
2023 Octubre	146	12	158
2023 Septiembre	144	27	171

Sr. Editor:

Las enfermedades cardiovasculares son la principal causa de mortalidad en el mundo. La detección y el tratamiento tempranos de los síntomas son cruciales para mejorar los resultados. Aproximadamente el 70% de los pacientes buscan información de salud utilizando motores de búsqueda antes de consultar a profesionales de la medicina1. En noviembre de 2022 se lanzó el Chat generative pretrained transformer (ChatGPT), un modelo de lenguaje de inteligencia artificial (IA) basado en el diálogo, y atrajo una gran atención en la comunidad científica2. El 8 de febrero de 2023 se lanzó Bing-Chat de Microsoft, un chatbot de IA que proporciona asistencia conversacional basada en GPT-4, con acceso a búsquedas en Internet en tiempo real (WSa-GPT)3. WSa-GPT utiliza lenguaje natural y algoritmos de aprendizaje profundo para proporcionar respuestas en forma de conversaciones naturales. Aunque se ha observado que los chatbots como ChatGPT proporcionan respuestas muy exactas a preguntas básicas relativas a la prevención de las enfermedades cardiovasculares4 y a preguntas de los pacientes y que es capaz de redactar informes de alta5, es necesario evaluar su seguridad a la hora de prestar ayuda a los pacientes que lo consultan. El objetivo de esta simulación fue evaluar de manera cualitativa la viabilidad y la exactitud de un chatbot WSa-GPT para proporcionar ayuda en el ámbito de la cardiología en trastornos cardiovasculares frecuentes e importantes.

Este estudio se llevó a cabo durante la semana del 13 al 17 de febrero, poco después del lanzamiento de este chatbot WSa-GPT. Se probaron diversas opciones de entrada hasta que encontramos una que actuaba efectivamente como asistente de salud. Utilizando una conversación de estilo libre y basándose en experiencias reales, un cardiólogo simuló 14 pacientes que abarcaban síntomas cardiovasculares comunes e importantes, así como situaciones de urgencia o banales (tabla 1). Se grabaron las conversaciones y 2 cardiólogos independientes evaluaron (como «apropiado» o «inapropiado») si la anamnesis era completa y pertinente (correspondía a los síntomas y las respuestas y obtenía información pertinente sobre antecedentes médicos, síntomas y factores de riesgo en concordancia con las guías clínicas). Los 2 cardiólogos independientes evaluaron también si la decisión final era o no segura para el paciente y si las respuestas eran claras y fáciles de comprender. Las discrepancias se resolvieron con la intervención de un tercer cardiólogo independiente. Al no tratarse de pacientes reales, no es necesaria la aprobación de ética de investigación.

Tabla 1.

Características de los pacientes, decisión y evaluación

Enfermedad simulada	Edad	Sexo	Decisión	Decisión correcta/segura			Anamnesis adecuada			Claridad
				R1	R2	R3	R1	R2	R3	R1	R2
Síncope debido a taquicardia ventricular en un paciente con síndrome de Brugada	36	M	Acudir a SU	A	A	ND	A	A	ND	A	A
Taquicardia supraventricular paroxística con buena tolerancia a medicación	20	M	Acudir a SU	A	A	ND	A	A	ND	A	A
Estenosis aórtica grave sintomática	67	M	Evaluación sin carácter de urgencia	A	A	ND	I	I	ND	I	I
Infarto de miocardio con elevación del segmento ST	45	M	Llamar a SU	A	A	ND	I	I	ND	A	A
Dolor torácico no isquémico	35	F	Atención primaria	A	A	ND	A	A	ND	A	A
Descompensación de insuficiencia cardiaca	82	M	Acudir a SU	A	A	ND	I	I	ND	A	A
Angina estable	54	M	Evaluación preferente	A	A	ND	A	A	ND	A	A
Hipotensión	104	F	Evaluación preferente	A	I	A	A	A	ND	A	A
Hipertensión leve	62	F	Evaluación sin carácter de urgencia	A	A	ND	A	A	ND	A	A
Síncope de mecanismo neurológico	24	F	Evaluación sin carácter de emergencia	A	A	ND	A	I	A	A	A
Infarto agudo de miocardio sin elevación del segmento ST	76	M	Acudir a SU	A	A	ND	A	A	ND	A	A
Disección de aorta	56	M	Llamar a SU	A	A	ND	I	I	ND	A	A
Angina de Prinzmetal	40	M	Llamar a SU	A	A	ND	A	A	ND	A	A
Flutter auricular	83	F	Evaluación preferente	A	A	ND	A	A	ND	A	A

A: apropiado; F: sexo femenino; I: inapropiado; M: sexo masculino; ND: no disponible; R1: revisor 1; R2: revisor 2; R3: revisor 3; SU: servicio de urgencias.

Los pacientes simulados eran predominantemente varones (64,3%), con una mediana [intervalo intercuartílico] de edad de 54 [36-73] años. Se llegó a una decisión tras una mediana de 23 [18-29] mensajes. Las respuestas de WSa-GPT a todos los casos simulados (100%) se evaluaron como «apropiadas» para una decisión final correcta y segura. Además, 13 casos (93%) se consideraron «apropiados» por lo que respecta a la claridad y la facilidad de comprensión y 10 (71%) fueron «apropiados» en cuanto a la anamnesis (tabla 1). El tercer cardiólogo resolvió 2 discrepancias como respuestas apropiadas. Todas las conversaciones simuladas se encuentran en los vídeos 1-14 del material adicional.

En este estudio exploratorio se observó que el chatbot WSa-GPT proporcionó recomendaciones claras y apropiadas para toda una gama de trastornos de salud cardiovascular simulados. Aunque la anamnesis se consideró inapropiada en 5 casos (p. ej., en los casos 3 y 6 no se planteó ninguna pregunta acerca de la nicturia, el aumento de peso o la disnea paroxística nocturna), la recomendación final fue apropiada. Estos resultados respaldan los datos anteriores que indicaban el potencial de los chatbots interactivos basados en IA para la asistencia en el ámbito de la cardiología4. Estos chatbots pueden proporcionar respuestas inmediatas y exactas a preguntas relativas a la salud, con lo que se reduciría la carga de trabajo de los profesionales sanitarios5,6. Por ejemplo, la conversación entre el paciente y el chatbot podría transmitirse en forma de mensajes electrónicos, lo que permitiría al médico llevar a cabo una evaluación clínica inicial antes de la llegada del paciente al servicio de urgencias. La aplicación de estos chatbots basados en IA podría aportar ahorros de costes de la atención sanitaria y brindar apoyo a los pacientes en zonas remotas con poco acceso a médicos de atención primaria.

Hay que tener en cuenta varias limitaciones. Primero, la interacción entre paciente y chatbot se simuló en vez de utilizar a pacientes reales que solicitaran asesoramiento médico. Sin embargo, no parece ético retrasar la consulta de un paciente con un profesional de la salud simplemente para evaluar la seguridad de un chatbot basado en IA. Además, la conversación en estilo libre utilizada en la simulación podría llevar a un sesgo en la evaluación de la herramienta. Segundo, el tamaño de la muestra es muy pequeño. La razón es que, cuando se lanzó, el chatbot Bing de Microsoft estaba limitado a 11 mensajes en 1 semana. Aunque simulamos los motivos más frecuentes para acudir al servicio de urgencias por dolor torácico agudo, no se simularon ni evaluaron otras enfermedades posibles pero menos frecuentes (p. ej., miocarditis, neumotórax, síndrome de Boerhaave), por lo que la decisión apropiada de WSa-GPT no puede extrapolarse a esas situaciones. Tercero, cuando se utilizó el mismo prompt original 3 meses después de concebir el estudio, las conversaciones ya no eran reproducibles. Bing Chat sufrió varios cambios que hicieron que se centrara más en búsquedas en Internet asistidas. Los estudios futuros deberán centrarse no solo en la viabilidad y la exactitud cualitativas de los chatbots basados en IA, sino también en la reproducibilidad de los resultados. Cuarto, aunque los cardiólogos que realizaron la simulación de pacientes y los cardiólogos que evaluaron las respuestas eran distintos, es posible que se haya introducido un pequeño sesgo. Quinto, el 64% de los pacientes simulados eran varones, todos ellos caucásicos; se necesitan nuevas investigaciones para evaluar la seguridad y la efectividad del chatbot WSa-GPT en diferentes pacientes y trastornos crónicos, así como su papel para respaldar a los profesionales de la salud en la atención personalizada. Sexto, no se midió la duración de las conversaciones, pero se desarrollaron de forma natural, sin que hubiera un retraso significativo que pudiera influir en la experiencia del diálogo. Y séptimo, estos resultados prometedores tienen la limitación del uso de un prompt del chatbot personalizado, y es posible que no sea reproducible en otros contextos.

En conclusión, 2 cardiólogos independientes valoraron que el chatbot WSa-GPT proporcionó una recomendación apropiada y clara respecto a la urgencia de solicitar una evaluación médica en persona en 14 casos de pacientes simulados. Sin embargo, los resultados no fueron reproducibles en una fecha posterior debido a los varios cambios introducidos en el motor del chatbot WSa-GPT, lo cual limita la aplicabilidad de esta herramienta. La reproducibilidad de los resultados será un criterio esencial en las evaluaciones de futuros chatbots basados en IA y en GPT4 por lo que respecta a su viabilidad y la aplicación en entornos hospitalarios y prehospitalarios.

FINANCIACIÓN

Ninguna.

CONTRIBUCIÓN DE LOS AUTORES

Todos los autores han contribuido de manera significativa en: a) la concepción y el diseño, la obtención de datos o su análisis e interpretación; b) la redacción del artículo o la revisión crítica en cuanto a su contenido intelectual; c) la aprobación final de la versión a publicar, y d) la aceptación de la responsabilidad de todos los aspectos del artículo, así como de investigar y resolver cualquier posible cuestión relativa a la exactitud y la veracidad de cualquier parte del trabajo.

CONFLICTO DE INTERESES

J. Sanchis es editor jefe de Rev Esp Cardiol. Se ha seguido el procedimiento editorial establecido por la Revista para garantizar un tratamiento imparcial del manuscrito. P. López-Ayala ha recibido subvenciones de investigación de la Swiss Heart Foundation (FF20079 y FF21103) y honorarios por conferencias de Quidel, pagados a su centro, sin relación con el trabajo presentado. J. Boeddinghaus ha recibido subvenciones de investigación de la Universidad de Basilea, el Hospital Universitario de Basilea, la División de Medicina Interna, Swiss Academy of Medical Sciences, la Gottfried and Julia Bangerter-Rhyner Foundation y la Swiss National Science Foundation (P500PM_206636) y honorarios por conferencias de Siemens, Roche Diagnostics, Ortho Clinical Diagnostics y Quidel Corporation. C. Mueller ha recibido subvenciones de investigación de la Swiss National Science Foundation, la Swiss Heart Foundation, el KTI, la Unión Europea, la Universidad de Basilea, el Hospital Universitario de Basilea, Abbott, Astra Zeneca, Beckman Coulter, BRAHMS, Idorsia, Novartis, Ortho Clinical Diagnostics, Quidel, Roche, Siemens, Singulex y Sphingotec, así como honorarios por conferencias y consultoría de AstraZeneca, Bayer, Boehringer Ingelheim, BMS, Daiichi Sankyo, Idorsia, Osler, Novartis, Roche, Sanofi, Siemens y Singulex, todos ellos pagados a su centro. Los demás autores no tienen nada que declarar.

ANEXO

MATERIAL ADICIONAL

Se puede consultar material adicional a este artículo en su versión electrónica disponible en https://doi.org/10.1016/j.recesp.2023.06.009

ANEXO A

MATERIAL ADICIONAL

Bibliografía

[1]

Fox S, Duggan M. Pew Research Center. Internet & American Life Project. Published January 15, 2013. Disponible en: https://www.pewinternet.org/wp-content/uploads/sites/9/media/Files/Reports/PIP_HealthOnline.pdf. Consultado 19 feb 2023.

[2]

E.A.M. Dis, van, J. Bollen, W. Zuidema, R. van Rooij, C.L. Bockting.

ChatGPT: five priorities for research.

Nature., (2023), 614 pp. 224-226

http://dx.doi.org/10.1038/d41586-023-00288-7 | Medline

[3]

Mehdi Y. Reinventing search with a new AI-powered Microsoft Bing and Edge, your copilot for the web. Reinventing search with a new AI-powered Microsoft Bing and Edge, your copilot for the web. Published January 7, 2023. https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/. Consultado 19 feb 2023.

[4]

A. Sarraju, D. Bruemmer, E.V. Iterson, L. Cho, F. Rodriguez, L. Laffin.

Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model.

JAMA., (2023), 329 pp. 842-844

http://dx.doi.org/10.1001/jama.2023.1044 | Medline

[5]

S.R. Ali, T.D. Dobbs, H.A. Hutchings, I.S. Whitaker.

Using ChatGPT to write patient clinic letters.

Lancet Digital Heal., (2023), 5 pp. e179-e181

[6]

J.W. Ayers, A. Poliak, M. Dredze, et al.

Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum.

JAMA Intern Med., (2023), 183 pp. 589-596

http://dx.doi.org/10.1001/jamainternmed.2023.1838 | Medline

REVISTA ESPAÑOLA DE

CARDIOLOGÍA

Carta científica
Rendimiento de un chatbot de inteligencia artificial con capacidad de búsqueda web en asistencia relacionada con la cardiología: un estudio de simulación

Performance of an artificial intelligence chatbot with web search capability in cardiology-related assistance: a simulation study

Opciones

Carta científica Rendimiento de un chatbot de inteligencia artificial con capacidad de búsqueda web en asistencia relacionada con la cardiología: un estudio de simulación

Performance of an artificial intelligence chatbot with web search capability in cardiology-related assistance: a simulation study

Opciones

Carta científica
Rendimiento de un chatbot de inteligencia artificial con capacidad de búsqueda web en asistencia relacionada con la cardiología: un estudio de simulación