ISSN: 0300-8932 Factor de impacto 2023 7,2
Vol. 66. Núm. 3.
Páginas 163-167 (Marzo 2013)

Editorial
La formulación de recomendaciones con GRADE: cuestión de confianza

Formulating Recommendations With GRADE: A Matter of Confidence

Pablo Alonso-Coelloab¿Ivan SolàabIgnacio Ferreira-Gonzálezbc

Opciones

¿CUÁL ES LA SITUACIÓN EN EL CAMPO DE LAS GUÍAS ACTUALMENTE?

Las guías de práctica clínica (GPC), entendidas como conjunto de recomendaciones para guiar la práctica clínica, se han convertido en unas herramientas muy populares entre los profesionales de la salud. Este hecho ha tenido lugar tanto en el ámbito internacional como en nuestro entorno y ha venido acompañado de un importante desarrollo de la metodología para su elaboración y evaluación1,2.

Las GPC han introducido en su desarrollo cambios tan importantes como la composición multidisciplinar del grupo elaborador y la necesidad de declarar los conflictos de intereses de sus miembros, la revisión sistemática de la literatura y una formulación de recomendaciones más rigurosa y estructurada. No obstante, este desarrollo de la metodología no siempre se ha reflejado en una mayor calidad3.

En el caso concreto de los sistemas para la formulación de recomendaciones, ha habido una proliferación excesiva de enfoques que ha dado lugar a la multiplicidad de sistemas. Este hecho, así como diversas limitaciones, ha complicado la comunicación entre elaboradores y a menudo ha confundido a los usuarios finales. Por ello, recientemente se ha desarrollado una propuesta internacional para intentar consensuar un sistema único que supere las limitaciones previas4,5. La propuesta, denominada GRADE (Grading of Recommendations Assessment, Development and Evaluation) ha sido desarrollada por un grupo internacional de elaboradores de GPC, clínicos y metodólogos pertenecientes a las principales organizaciones que elaboran guías. Esta propuesta está siendo adoptada rápidamente por múltiples instituciones en todo el mundo, como el National Institute of Clinical Excellence (NICE), la Organización Mundial de la Salud (OMS), la Colaboración Cochrane o publicaciones como Clinical Evidence o Uptodate (www.gradeworkinggroup.org)6. En nuestro entorno, el Programa Nacional de Elaboración de Guías de Práctica Clínica del Sistema Nacional de Salud (www.guiasalud.es)1, entre otros, ha comenzado a utilizarlo.

Las diferencias más relevantes entre GRADE y otros sistemas previos son sintéticamente las siguientes: a) graduación de la importancia de los desenlaces de interés (p. ej., infarto agudo de miocardio); b) separación explícita entre la calidad de la evidencia y la fuerza de las recomendaciones; c) uso de criterios explícitos para evaluar la calidad de la evidencia y la fuerza de las recomendaciones, y d) consideración de los valores y preferencias de los pacientes en la formulación de recomendaciones. Este artículo se dirige a los usuarios de GPC para describir el sistema GRADE. Para profundizar más sobre GRADE, existe una serie de artículos publicada en British Medical Journal4 y otra, dirigida principalmente a elaboradores de guías, en Journal of Clinical Epidemiology5.

LA NECESIDAD DE EVALUAR LO RELEVANTE

Cuando debemos decidir si una intervención conlleva más beneficios que riesgos, no todos los desenlaces de interés tienen la misma importancia; por lo tanto, nuestras decisiones deberían basarse en los más importantes para la toma de decisiones. GRADE propone una clasificación de la importancia de los desenlaces de interés dividida en tres categorías; clave, importante y no importante7. Serán los desenlaces clave los que determinen la calidad de la evidencia y, finalmente, el balance beneficios y riesgos, así como la fuerza de las recomendaciones. Por ejemplo, en una reciente GPC sobre el tratamiento antitrombótico para pacientes con fibrilación auricular, el grupo elaborador seleccionó como desenlaces graves la mortalidad y el ictus no fatal8. El sangrado extracraneal grave (no fatal) y la embolia sistémica fueron considerados importantes, pero no claves. Finalmente, GRADE promueve que en la valoración de la importancia de los desenlaces se tenga en consideración la perspectiva de los pacientes, pues sus valores y preferencias no tienen por qué coincidir con los del grupo elaborador.

¿EN QUÉ CONSISTE LA CALIDAD DE LA EVIDENCIA?

Los usuarios de GPC deben disponer de algún método sencillo para conocer la confianza que pueden depositar en los resultados derivados de la revisión de la literatura disponible. Esta información es crucial y, además, tiene gran relevancia para la graduación de la fuerza de las recomendaciones. El sistema GRADE define la calidad de la evidencia como el grado de confianza que tenemos en que la estimación de un efecto (p. ej., reducir el riesgo de ictus no fatal en un 50%) es adecuada para apoyar una recomendación7. Para cada uno de los desenlaces clave se realiza una evaluación de la calidad de la evidencia. De este modo, una misma comparación de una intervención de interés (p. ej., dabigatrán frente a warfarina) puede disponer de diferentes clasificaciones de la calidad de la evidencia. Para una desenlace concreto (p. ej., ictus no fatal), podemos disponer de un conjunto de estudios sin limitaciones en su diseño, y para otro desenlace relevante (p. ej., muerte) podemos disponer de resultados menos precisos. Nuestra confianza, por lo tanto, será diferente para cada uno de estos dos desenlaces (alta y moderada respectivamente).

Asimismo, la propuesta para clasificar la calidad de la evidencia según GRADE no sólo tiene en cuenta el riesgo de sesgo como en otros sistemas, sino que considera otros factores, como por ejemplo la consistencia de los resultados o su precisión (figura). GRADE propone la clasificación en cuatro categorías (alta, moderada, baja y muy baja). Tanto para los ensayos clínicos aleatorizados (cuya calidad inicialmente se considera alta) como para los estudios observacionales (cuya calidad inicialmente se considera baja), se consideran diferentes factores que pueden disminuir (o aumentar) nuestra confianza en la estimación del efecto observado. Estos factores son: a) las limitaciones en el diseño y la ejecución de los estudios (riesgo de sesgo); b) la heterogeneidad de los resultados; c) la ausencia de evidencia directa (entendida como la ausencia de pruebas en la literatura directamente aplicables a los pacientes, intervenciones o desenlaces de la pregunta clínica); d) la imprecisión de los resultados, y e) el sesgo de publicación (figura). La presencia de una o varias limitaciones relacionadas con estos factores determinará que la calidad baje un nivel (p. ej., de alta a moderada) o varios. Por ejemplo, se dispone de resultados heterogéneos proveniente de ensayos clínicos sobre cambios beneficiosos en la presión arterial (evidencia indirecta sobre desenlaces como ictus) con el consejo dietético. En este caso, existen dos limitaciones que afectarían a la calidad de la evidencia: la heterogeneidad y la evidencia indirecta. Así, dependiendo de la variabilidad de los resultados y lo indirecto de la evidencia, la calidad se podría clasificar como moderada o incluso baja.

Figura.

Calidad de la evidencia y factores modificadores.

(0.21MB).

Las situaciones que pueden llevar a un incremento de la confianza en los resultados de los estudios observacionales son poco frecuentes7. En tales situaciones se debería considerar sólo si no existe ninguna razón para disminuir la calidad de la evidencia debido a limitaciones en el diseño o la ejecución. Dos ejemplos paradigmáticos son la utilización de la insulina en el tratamiento de la acetoacidosis diabética o de la adrenalina en la anafilaxia. La ausencia de ensayos clínicos aleatorizados no nos impide tener una confianza elevada sobre su efectividad. Las razones de que la confianza aumente son la presencia de un efecto muy importante e inmediato y un cambio radical en el pronóstico de estos pacientes, así como un cambio desde que se empezó a introducir estos tratamientos (figura).

El sistema GRADE permite sintetizar la información disponible en un formato estructurado (tabla de resumen de los hallazgos o summary of findings [SoF] table). Esta tabla incluye el número de estudios disponibles para cada desenlace de interés clave, la calidad de la evidencia y los estimadores del efecto observado, en términos relativos y absolutos, entre otros. Esta tabla está dirigida a usuarios de revisiones sistemáticas y de GPC y se puede elaborar con un programa informático de distribución libre denominado GRADEpro.

En el ejemplo anterior de la GPC sobre el tratamiento antitrombótico8, se evaluó la evidencia disponible para formular una recomendación sobre el uso de dabigatrán comparado con warfarina (tabla). En este caso se disminuyó la calidad de la evidencia en tres de los desenlaces de interés (mortalidad, sangrado extracraneal no fatal y tromboembolia sistémica) por la imprecisión observada en los resultados (los intervalos de confianza incluyeron tanto un potencial beneficio del dabigatrán como la ausencia de efecto o incluso un aumento del riesgo de un desenlace indeseado). Según la información disponible, el dabigatrán, comparado con la warfarina, evitaría 3 ictus y probablemente reduciría el riesgo de 1 muerte cada 1.000 pacientes tratados durante 1 año. Asimismo, no parece que aumente el riesgo de sangrado extracraneal grave ni modifique el riesgo de embolia sistémica.

Tabla.

Resumen de los hallazgos. Dabigatrán comparado con warfarina en pacientes con fibrilación auricular y riesgo intermedio de ictus8 (CHADS2=1)

CHADS2: insuficiencia cardiaca, hipertensión, edad ≥ 75 años, diabetes y accidente cerebrovascular; GRADE: Grading of Recommendations Assessment, Development and Evaluation; IC95%: intervalo de confianza del 95%; ND: no disponible; RR: riesgo relativo.

aEl intervalo de confianza del 95% no excluye la posibilidad de un riesgo o un beneficio apreciables con la terapia con dabigatrán.

bSangrado intracraneal incluye sangrado intracerebral, subdural y subaracnoideo.

¿PODEMOS CONFIAR EN QUE UNA RECOMENDACIÓN CONLLEVARÁ MÁS BENEFICIOS QUE RIESGOS?

GRADE define la fuerza de una recomendación en términos de la confianza que tenemos en que los desenlaces deseados de una intervención (p. ej., sus beneficios) sean superiores a los desenlaces indeseados (p. ej., inconvenientes o efectos adversos de un tratamiento)9. El sistema GRADE divide las recomendaciones en cuatro categorías dependiendo de la dirección de su enunciado (a favor o en contra) y de la fuerza de la recomendación (fuerte o débil). En una recomendación a favor, los efectos deseados de una intervención frente a otra superan a los efectos indeseados. En una en contra, los efectos indeseados de una intervención frente a otra superan los efectos deseados. En el caso de una recomendación fuerte, podemos confiar en que habrá un balance favorable entre efectos deseados e indeseados de una intervención frente a otra. Por el contrario, en una débil hay incertidumbre sobre ese balance.

Las implicaciones para los pacientes, profesionales de la salud y los gestores de la salud, de las recomendaciones fuertes y débiles son distintas. Por ejemplo, en el caso de los pacientes, una recomendación fuerte implica que la mayoría de las personas estarían de acuerdo con la intervención recomendada y sólo una pequeña parte no lo estaría. Por el contrario, una débil implica que la mayoría de las personas estarían de acuerdo con la acción recomendada, pero un número considerable de ellas no lo estarían. En el caso de los profesionales de la salud, una recomendación fuerte comportaría que la mayoría de los pacientes deberían recibir la intervención recomendada. En el caso de una recomendación débil, diferentes opciones podrían ser apropiadas, y el médico debería ayudar a cada paciente a llegar a una decisión lo más acorde posible con sus valores y preferencias.

A la hora de ponderar la fuerza y la dirección de una recomendación, GRADE considera cuatro factores:

  • Balance entre beneficios y riesgos. Cuando la diferencia entre los desenlaces deseados e indeseados de la intervención es muy grande, es más probable formular una recomendación fuerte (a favor o en contra). En caso contrario, cuando la diferencia es escasa, lo más frecuente es formular una recomendación débil. Por ejemplo, mientras que el balance beneficio/riesgo de la trombolisis en las primeras 6 h del infarto se inclina claramente a favor del primero, a partir de las 6 h dicha diferencia no es tan importante.

  • Calidad de la evidencia. Antes de formular una recomendación es necesario conocer la confianza en la calidad o la confianza en la estimación de los efectos observados en la literatura. Si la calidad de la evidencia es baja, es más probable formular una recomendación débil. Por el contrario, si la calidad es alta, es más probable formular una recomendación fuerte. Sin embargo, hay situaciones en que se puede justificar una recomendación fuerte aunque la calidad de la evidencia sea baja o muy baja. Por ejemplo:

    • Cuando la calidad de la evidencia es baja respecto a un beneficio con una intervención en una situación de riesgo vital (recomendación fuerte a favor), como por ejemplo, en el caso de la cirugía de emergencia en la rotura de la pared ventricular libre en el infarto agudo de miocardio.

    • Cuando la calidad de la evidencia es baja respecto a un beneficio con una intervención y alta respecto a un potencial daño o un coste muy elevado de la intervención (recomendación fuerte en contra). Por ejemplo, aunque un desfibrilador implantable podría tener un cierto potencial beneficio en pacientes con fracción de eyección mayor de un 40% tras el primer mes de un infarto de miocardio, la magnitud de dicho beneficio posiblemente no justifique el alto coste.

    • Cuando la calidad de la evidencia es baja para indicar equivalencia entre dos intervenciones, pero es alta para un daño potencialmente menor con una de las alternativas (recomendación fuerte a favor de la intervención con menos eventos adversos).

    • Cuando la calidad de la evidencia es alta en mostrar equivalencia entre dos intervenciones, pero es baja para indicar un daño con una de las alternativas (recomendación fuerte a favor de la intervención con menos eventos adversos). Un ejemplo sería el uso del ácido acetilsalicílico (AAS) frente a paracetamol en niños con fiebre y sarampión. La calidad sobre su eficacia similar es alta, pero es baja para la asociación del AAS con el síndrome de Reye.

  • Valores y preferencias. Ponderar los beneficios y riesgos de diferentes estrategias de tratamiento o diagnóstico conlleva inevitablemente realizar juicios de valor. Idealmente, para realizar este proceso deberíamos conocer los valores y preferencias de la población de nuestro entorno y hasta qué punto estos varían entre individuos. No obstante, a menudo no disponemos de esta información o no conocemos hasta qué punto los valores y las preferencias son homogéneas, por lo que las recomendaciones, en estos casos, probablemente serán más prudentes o débiles. Por ejemplo, y siguiendo con el anterior de la comparación de dabigatrán y warfarina en la fibrilación auricular8, deberemos ponderar entre una reducción del riesgo de ictus y un aumento del riesgo de sangrado extracraneal. La literatura disponible muestra que, en términos generales, los pacientes asignan tres veces más importancia a evitar un ictus que a evitar un sangrado extracraneal. No obstante, la variabilidad observada en los estudios disponibles probablemente conducirá a que sólo se formulen recomendaciones fuertes en situaciones en que los beneficios sean muy superiores a los riesgos o viceversa, o en circunstancias en que los valores y las preferencias sean relativamente uniformes. En el caso del ejemplo sobre fibrilación auricular, y debido a que las potenciales comparaciones entre intervenciones no resultan en diferencias en mortalidad (cada 1.000 pacientes tratados durante 1 año), si el número de ictus evitados es menos de una tercera parte del número de sangrados extracraneales graves causados, se recomienda en contra de la intervención de interés. En el caso de los ictus evitados, si su número es apreciablemente superior a un tercio de los sangrados extracraneales graves causados por el tratamiento antitrombótico evaluado, se formulan recomendaciones a favor de la intervención.

  • Costes y uso de recursos. Los costes, a diferencia de otros factores, son más difíciles de evaluar debido a que a menudo hay una importante variabilidad de los recursos implicados, el entorno o el tiempo. Un coste alto disminuye la probabilidad de formular recomendaciones fuertes a favor. No obstante, el contexto puede resultar crítico a la hora de la decisión final.

JUSTIFICACIÓN DE LA RECOMENDACIÓN

Cuando se determina la fuerza de las recomendaciones, es necesario integrar y ponderar estos cuatro factores descritos. Para ello es crucial que los grupos elaboradores de GPC reflejen de manera explícita este proceso en formato de tabla. En el caso del ejemplo del dabigatrán y la warfarina, en cuanto a su balance entre beneficio y riesgo, el primero evita 3 ictus cada 1.000 pacientes con fibrilación auricular y riesgo moderado de ictus (CHADS=1), pero produce 1 sangrado extracraneal adicional. La calidad de la evidencia es moderada debido a la imprecisión de los resultados de los desenlaces de muerte, sangrado extracraneal y embolia sistémica. Por otro lado, hay una potencial variabilidad en los valores y las preferencias de los pacientes respecto a la importancia relativa de los desenlaces clave, y el dabigatrán tiene un coste alto, aunque probablemente sea coste-efectivo en pacientes con riesgo de ictus moderado y alto. Asimismo, el grupo elaborador de esta GPC tuvo en cuenta otros factores en este caso, como la ausencia de datos a largo plazo sobre seguridad y efectividad del dabigatrán, y la ausencia de antídoto. De hecho, comentan, sería razonable en pacientes en tratamiento anticoagulante oral bien controlados el continuar con este en lugar de cambiar a dabigatrán. La integración de estos factores condujo a la formulación de una recomendación débil a favor, proponiendo que en los pacientes con fibrilación auricular y riesgo moderado de ictus se considere el dabigatrán en lugar de la warfarina (recomendación débil a favor)8.

CONCLUSIONES

GRADE es un sistema riguroso para la evaluación de la calidad y la formulación de las recomendaciones que aborda las limitaciones de los sistemas previos. El sistema GRADE proporciona a los grupos elaboradores de guías un marco explícito y estructurado, pero no evita la necesidad de realizar juicios a la hora de las múltiples decisiones necesarias en la elaboración de recomendaciones. Actualmente un amplio número de instituciones ha comenzado a utilizarlo y su implantación y su influencia son cada vez mayores en el ámbito nacional e internacional. En este sentido, la Sociedad Europea de Cardiología ha comenzado a introducirlo en alguna de sus guías más recientes10 y, por lo tanto, hay razones para pensar que pronto las guías de cardiología en Europa y nuestro país podrían tener un sistema común para la formulación de recomendaciones.

Full English text available from: www.revespcardiol.org/en

CONFLICTO DE INTERESES

Pablo Alonso-Coello e Ivan Solà son miembros del grupo GRADE.

Bibliografía
[1]
Grupo de trabajo sobre GPC. Elaboración de Guías de Práctica Clínica en el Sistema Nacional de Salud. Manual Metodológico. Madrid: Plan Nacional para el SNS del MSC. Instituto Aragonés de Ciencias de la Salud-I+CS; 2007. Guías de Práctica Clínica en el SNS: I+CS. N.o 2006/0I [citado 12 Jul 2012]. Disponible en: http://portal.guiasalud.es/emanuales/elaboracion/index-02.html
[2]
M.C. Brouwers, M.E. Kho, G.P. Browman, J.S. Burgers, F. Cluzeau, G. Feder, et al.
AGREE Next Steps Consortium. AGREE II: advancing guideline development, reporting and evaluation in health care.
CMAJ, (2010), 182 pp. E839-E842
[3]
P. Alonso-Coello, A. Irfan, I. Sola, I. Gich, M. Delgado-Noguera, D. Rigau, et al.
The quality of clinical practice guidelines over the last two decades: a systematic review of guideline appraisal studies.
Qual Safety Health Care, (2010), 19 pp. e58
[4]
G.H. Guyatt, A.D. Oxman, G. Vist, R. Kunz, Y. Falck-Ytter, P. Alonso-Coello, en representación del GRADE Working Group, et al.
Rating quality of evidence and strength of recommendations GRADE: an emerging consensus on rating quality of evidence and strength of recommendations.
[5]
G.H. Guyatt, A.D. Oxman, H.J. Schünemann, P. Tugwell, A. Knotterus.
GRADE guidelines: A new series of articles in the Journal of Clinical Epidemiology.
J Clin Epidemiol, (2011), 64 pp. 380-382
[6]
Grupo de trabajo GRADE. Grading of Recommendations Assessment, Development and Evaluation [citado 17 Jul 2012]. Disponible en: www.gradeworkinggrop.org
[7]
G.H. Guyatt, A.D. Oxman, R. Kunz, G.E. Vist, Y. Falck-Ytter, H.J. Schünemann, GRADE Working Group.
Rating quality of evidence and strength of recommendations: What is «quality of evidence» and why is it important to clinicians?.
[8]
J.J. You, D.E. Singer, P.A. Howard, D.A. Lane, M.H. Eckman, M.C. Fang, et al.
Antithrombotic therapy for atrial fibrillation: Antithrombotic Therapy and Prevention of Thrombosis, 9th ed: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines.
Chest, (2012), 141 pp. e531S-e575S
[9]
G.H. Guyatt, A.D. Oxman, R. Kunz, Y. Falck-Ytter, G.E. Vist, A. Liberati, GRADE Working Group, et al.
Rating quality of evidence and strength of recommendations: Going from evidence to recommendations.
[10]
Perk J, De Backer G, Gohlke H, Graham I, Reiner Z, Verschuren M, et al. European Guidelines on cardiovascular disease prevention in clinical practice (version 2012): The Fifth Joint Task Force of the European Society of Cardiology and Other Societies on Cardiovascular Disease Prevention in Clinical Practice (constituted by representatives of nine societies and by invited experts) *Developed with the special contribution of the European Association for Cardiovascular Prevention & Rehabilitation (EACPR). Eur Heart J. 2012; 33:1635-701 [citado 12 Jul 2012]. Disponible en: http://www.escardio.org/guidelines-surveys/esc-guidelines/GuidelinesDocuments/guidelines-CVD-prevention.pdf
Copyright © 2012. Sociedad Española de Cardiología
¿Es usted profesional sanitario apto para prescribir o dispensar medicamentos?