Ampliar

Páginas 688-696 (Agosto 2011)

Revisiones sistemáticas y metaanálisis: bases conceptuales e interpretación

Systematic Reviews and Meta-Analysis: Scientific Rationale and Interpretation

Ignacio Ferreira Gonzáleza bGerard Urrútiab cPablo Alonso-Coellob c

https://doi.org/10.1016/j.recesp.2011.03.029

Ver PDF

Read this article in English

Opciones

Otros artículos de interés

Métodos de puntuación de propensión para crear una distribución equilibrada de las covariables en los estudios observacionales
Medidas del rendimiento de modelos de predicción y marcadores pronósticos: evaluación de las predicciones y clasificaciones
Análisis de riesgos competitivos
Nuevos métodos estadísticos en la investigación cardiovascular

Figura 1

Figura 2

Figura 3

Figura 4

Figura 5

Figura 6

Estadísticas

56317 Total PDF

387969 Total HTML

Año/mes	Html	Pdf	Total
2024 Octubre	26	8	34
2024 Septiembre	1544	46	1590
2024 Agosto	2064	429	2493
2024 Julio	1925	224	2149
2024 Junio	2065	389	2454
2024 Mayo	1973	314	2287
2024 Abril	1630	633	2263
2024 Marzo	1584	454	2038
2024 Febrero	1479	221	1700
2024 Enero	1671	244	1915
2023 Diciembre	1281	158	1439
2023 Noviembre	2158	264	2422
2023 Octubre	2347	322	2669
2023 Septiembre	1892	299	2191
2023 Agosto	1276	445	1721
2023 Julio	1580	220	1800
2023 Junio	2090	319	2409
2023 Mayo	191	41	232
2022 Noviembre	124	20	144
2022 Octubre	4245	830	5075
2022 Septiembre	4215	719	4934
2022 Agosto	2043	445	2488
2022 Julio	1993	446	2439
2022 Junio	2159	542	2701
2022 Mayo	2874	655	3529
2022 Abril	2795	677	3472
2022 Marzo	3080	846	3926
2022 Febrero	2356	561	2917
2022 Enero	2786	722	3508
2021 Diciembre	2529	439	2968
2021 Noviembre	3402	710	4112
2021 Octubre	5603	1594	7197
2021 Septiembre	3214	860	4074
2021 Agosto	2091	767	2858
2021 Julio	2940	892	3832
2021 Junio	3249	786	4035
2021 Mayo	4207	972	5179
2021 Abril	8333	1650	9983
2021 Marzo	4873	1110	5983
2021 Febrero	3008	878	3886
2021 Enero	3172	817	3989
2020 Diciembre	3356	736	4092
2020 Noviembre	4853	1049	5902
2020 Octubre	3676	856	4532
2020 Septiembre	4362	911	5273
2020 Agosto	3607	919	4526
2020 Julio	4588	1076	5664
2020 Junio	4566	1058	5624
2020 Mayo	6289	1825	8114
2020 Abril	6596	1877	8473
2020 Marzo	4926	948	5874
2020 Febrero	3649	695	4344
2020 Enero	3067	688	3755
2019 Diciembre	2621	550	3171
2019 Noviembre	4479	813	5292
2019 Octubre	6267	1070	7337
2019 Septiembre	7236	1097	8333
2019 Agosto	4635	1064	5699
2019 Julio	4958	905	5863
2019 Junio	5022	622	5644
2019 Mayo	6577	410	6987
2019 Abril	6230	337	6567
2019 Marzo	5245	365	5610
2019 Febrero	4407	259	4666
2019 Enero	3677	274	3951
2018 Diciembre	3258	198	3456
2018 Noviembre	4655	269	4924
2018 Octubre	4908	312	5220
2018 Septiembre	4565	228	4793
2018 Agosto	3566	234	3800
2018 Julio	3008	245	3253
2018 Junio	3344	282	3626
2018 Mayo	4488	321	4809
2018 Abril	4108	254	4362
2018 Marzo	3316	301	3617
2018 Febrero	3162	251	3413
2018 Enero	2528	182	2710
2017 Diciembre	2079	125	2204
2017 Noviembre	3614	239	3853
2017 Octubre	3199	217	3416
2017 Septiembre	2770	234	3004
2017 Agosto	2243	224	2467
2017 Julio	2002	271	2273
2017 Junio	3062	251	3313
2017 Mayo	4047	308	4355
2017 Abril	3271	232	3503
2017 Marzo	3704	391	4095
2017 Febrero	3372	225	3597
2017 Enero	2189	199	2388
2016 Diciembre	2070	161	2231
2016 Noviembre	3877	265	4142
2016 Octubre	3662	291	3953
2016 Septiembre	3476	283	3759
2016 Agosto	2801	237	3038
2016 Julio	2362	255	2617
2016 Junio	3125	293	3418
2016 Mayo	3754	320	4074
2016 Abril	3469	294	3763
2016 Marzo	3163	304	3467
2016 Febrero	2880	281	3161
2016 Enero	2381	253	2634
2015 Diciembre	1914	197	2111
2015 Noviembre	3057	255	3312
2015 Octubre	3174	260	3434
2015 Septiembre	2807	309	3116
2015 Agosto	2222	242	2464
2015 Julio	1949	208	2157
2015 Junio	2142	185	2327
2015 Mayo	3065	266	3331
2015 Abril	2360	201	2561
2015 Marzo	2394	46	2440
2015 Febrero	1990	54	2044
2015 Enero	1243	39	1282
2014 Diciembre	1155	27	1182
2014 Noviembre	2128	44	2172
2014 Octubre	1899	46	1945
2014 Septiembre	1553	37	1590
2014 Agosto	1192	33	1225
2014 Julio	894	33	927
2014 Junio	1131	39	1170
2014 Mayo	1107	53	1160
2014 Abril	815	33	848
2014 Marzo	800	50	850
2014 Febrero	550	27	577
2014 Enero	497	31	528
2013 Diciembre	428	32	460
2013 Noviembre	720	41	761
2013 Octubre	781	45	826
2013 Septiembre	637	57	694
2013 Agosto	483	131	614
2013 Julio	388	134	522
2013 Junio	377	136	513
2013 Mayo	404	116	520
2013 Abril	274	96	370
2013 Marzo	180	54	234
2013 Febrero	151	40	191
2013 Enero	191	31	222
2012 Diciembre	149	22	171
2012 Noviembre	158	33	191
2012 Octubre	46	32	78
2012 Septiembre	4130	0	4130

Las revisiones sistemáticas son investigaciones científicas en las cuales la unidad de análisis son los estudios originales primarios. Constituyen una herramienta esencial para sintetizar la información científica disponible, incrementar la validez de las conclusiones de estudios individuales e identificar áreas de incertidumbre donde sea necesario realizar investigación. Además, son imprescindibles para la práctica de una medicina basada en la evidencia y una herramienta fundamental en la toma de decisiones médicas. Sin embargo, la realización de una revisión sistemática de calidad no es una tarea sencilla, como en ocasiones tampoco lo es su interpretación. En este artículo especial se presentan las bases conceptuales para la realización y la interpretación de revisiones sistemáticas, poniendo especial énfasis en los puntos clave durante su ejecución mediante un ejemplo hipotético.

Palabras clave

Revisión sistemática

Metaanálisis

Medicina basada en la evidencia

Introducción

Has finalizado una semana agotadora. Al final de la semana, te sientas tranquilo y reflexionas sobre las decisiones que has tenido que tomar. Entre otras, has indicado una intervención quirúrgica a un paciente con enfermedad de tres vasos, tuviste que decidir si se fibrinolizaba o se trasladaba a tu centro para angioplastia primaria a un paciente de 82 años con infarto inferior de 70 min de duración, y en consultas externas decidiste anticoagular a una paciente con fibrilación auricular.

Aunque estás razonablemente convencido de que tus decisiones se basaron en la mejor evidencia disponible, la duda te asalta. ¿Se habrá publicado algún estudio que ponga en cuestión mis decisiones?, ¿diferentes estudios sobre la misma intervención pueden discrepar en los resultados? Lo cierto es que en los últimos meses no has tenido mucho tiempo para leer. Te das cuenta de que para despejar tus dudas necesitas rápidamente una síntesis concisa, actualizada y rigurosa sobre la mejor evidencia disponible en las decisiones que tuviste que tomar. Dicho de otra manera, necesitas una revisión sistemática (RS)1.

Se considera que las RS son la fuente más fiable para informar la toma de decisiones médicas2. Quizá por ello, cada vez son más populares, y se han incrementado de forma muy importante las RS publicadas en los últimos años2. Sin embargo, la realización de una RS de calidad no es una tarea sencilla. De hecho, existen normas para su elaboración y, al igual que otros diseños, recomendaciones para la forma de presentación de sus resultados acorde con unos estándares de calidad, que han sido desarrollados por grupos internacionales multidisciplinarios de expertos, que incluyen a autores de RS, metodólogos, clínicos y editores2, 3, 4. En este artículo se presentan las bases conceptuales para la realización y la interpretación de RS, poniendo especial énfasis en los puntos clave durante su ejecución mediante un ejemplo hipotético.

CONCEPTO Y NOMENCLATURA

Las RS son investigaciones científicas en las que la unidad de análisis son los estudios originales primarios, a partir de los cuales se pretende contestar a una pregunta de investigación claramente formulada mediante un proceso sistemático y explícito. Por eso se las considera investigación secundaria («investigación sobre lo investigado»). Por el contrario, a las revisiones que no siguen un proceso sistemático, denominadas revisiones narrativas, no se las puede considerar un proceso formal de investigación, sino simplemente un formato de literatura científica basada sobre todo en opinión.

Desde un punto de vista formal, las RS sintetizan los resultados de investigaciones primarias mediante estrategias que limitan el sesgo y el error aleatorio5. Estas estrategias incluyen:

• La búsqueda sistemática y exhaustiva de todos los artículos potencialmente relevantes.
• La selección, mediante criterios explícitos y reproducibles, de los artículos que serán incluidos finalmente en la revisión1.
• La descripción del diseño y la ejecución de los estudios originales, la síntesis de los datos obtenidos y la interpretación de los resultados.

Aunque la RS es una herramienta de síntesis de información, no siempre es posible presentar resumidamente los resultados de los estudios primarios. Cuando estos no se combinan estadísticamente, la revisión se denomina RS cualitativa. Por el contrario, una RS cuantitativa, o metaanálisis (MA), es una RS que usa métodos estadísticos para combinar los resultados de dos o más estudios1.

No debe confundirse una RS con un MA. La primera siempre es posible, mientras que el segundo, sólo a veces. Sin embargo, cuando se cumplen las condiciones para realizarlo, el MA aporta información muy útil y manejable parar facilitar la comprensión acerca del efecto de un tratamiento o intervención, tanto en general como en grupos específicos de pacientes. Además, permite aumentar la precisión en la estimación del efecto detectando efectos de magnitud moderada pero clínicamente importantes que podrían haber pasado inadvertidos en los estudios primarios. Habitualmente, el MA combina datos agregados procedentes de los estudios publicados, pero en ocasiones puede combinar datos individualizados de los pacientes que han participado en varios estudios. Es el llamado MA con datos individuales de pacientes (individual patient data meta-analysis), considerado patrón de referencia de las RS6.

Nótese que, a diferencia de las revisiones narrativas, en las RS se emplea un método sistemático para la búsqueda de todos los estudios potencialmente relevantes junto con unos criterios explícitos y reproducibles, fijados de antemano en la selección. Eso es lo que les confiere el carácter científico, a diferencia de las revisiones narrativas. La Tabla 1 presenta las diferencias entre ambas.

Tabla 1. Diferencias entre revisiones narrativas y sistemáticas

Característica	Revisión narrativa	Revisión sistemática
Pregunta de interés	No estructurada, no específica	Pregunta estructurada, problema clínico bien delimitado
Búsqueda de artículos y sus fuentes	No detallada y no sistemática	Búsqueda estructurada y explícita
Selección de artículos de interés	No detallada y no reproducible	Selección basada en criterios explícitos uniformemente aplicados a todos los artículos
Evaluación de la calidad de la información	Ausente	Estructurada y explícita
Síntesis	A menudo resumen cualitativo	Resumen cualitativo y cuantitativo
Inferencias	A veces basadas en la evidencia	Normalmente basadas en la evidencia

Al igual que en el caso de los ensayos clínicos, se recomienda contar con un protocolo previo a la realización de una RS7. Esto ayudará a reflexionar y fijar los métodos más adecuados que luego se aplicarán en la revisión y, además, evitará las decisiones tomadas a posteriori en función de los resultados. Actualmente, el primer registro internacional de protocolos de revisiones sistemáticas, aparte de las RS Cochrane, se ha publicado recientemente con el nombre de PROSPERO (http://www.crd.york.ac.uk/prospero/).

ETAPAS DE UNA REVISIÓN SISTEMÁTICA

De forma resumida, una RS sigue las siguientes etapas:

• Definición de la pregunta clínica de interés y los criterios de inclusión y exclusión de los estudios.
• Localización y selección de los estudios relevantes.
• Extracción de datos de los estudios primarios.
• Análisis y presentación de los resultados.
• Interpretación de los resultados.

Definición de la pregunta clínica de interés

El primer paso es la correcta formulación de dicha pregunta. De forma general, esta ha de ser explícita y estructurada incluyendo los siguientes componentes clave8:

• La población específica y el contexto. Por ejemplo, pacientes añosos (mayores de 75 años) ingresados por infarto agudo de miocardio con elevación del ST.
• La exposición de interés. Podría ser un factor de riesgo, un factor pronóstico, una intervención o tratamiento, o un test diagnóstico. En el caso de una intervención, tratamiento o test diagnóstico, es habitual definir al mismo tiempo una exposición control. Por ejemplo, angioplastia primaria (intervención) frente a fibrinolisis (control).
• Eventos de interés. Por ejemplo, mortalidad total, mortalidad cardiovascular, nuevos ingresos por síndrome coronario, nuevas revascularizaciones, etc.

Así, a partir de estos elementos, se podría formular la pregunta: ¿en pacientes mayores de 75 años, la angioplastia primaria comparada con la fibrinolisis reduce la mortalidad y el infarto de miocardio? Una vez definida y delimitada la pregunta de interés, es más fácil establecer criterios de inclusión y exclusión de los estudios primarios. Por el contrario, una pregunta mal delimitada llevará a decisiones confusas acerca de los estudios que resultan relevantes para darle respuesta.

En muchas ocasiones no resulta fácil decidir lo específica que debe ser la pregunta de interés. Lo que está claro es que debe ser clínicamente relevante. Una pregunta demasiado poco específica (p. ej., ¿es útil la angioplastia primaria en el infarto agudo de miocardio?) será de poca ayuda al clínico para tomar una decisión en un paciente concreto. Además, debería tener en cuenta elementos de la exposición o de los pacientes que se piensa que pueden afectar al evento de interés. Por ejemplo, no es infrecuente que los pacientes mayores de 75 años estén en tratamiento con anticoagulación oral, el cual previsiblemente puede afectar al evento de interés. Así pues, podríamos restringir nuestra población de estudio a los pacientes sin anticoagulación oral. Sin embargo, unos criterios de inclusión excesivamente específicos limitan la aplicabilidad de los resultados. Por el contrario, se podría definir una pregunta poco restrictiva que tenga sentido clínico, y a partir de ella, explorar preguntas más específicas. Por ejemplo, incluir a todos los pacientes con infarto agudo de miocardio, y después realizar análisis exploratorios en aquellos con y sin anticoagulación oral. Sin embargo, dicha estrategia puede dar problemas semejantes al análisis de subgrupos9. Por último, la elección de unos criterios de inclusión excesivamente amplios conlleva el riesgo de no tener sentido clínico ni biológico10.

Es importante en esta fase decidir qué diseños de estudio vamos a considerar para su inclusión en nuestra revisión. Ello dependerá del tipo de cuestión que se intenta abordar. Si queremos evaluar la eficacia de una intervención, como en el ejemplo anterior, está claro que deberemos incluir ensayos clínicos aleatorizados (ECA), si estos están disponibles. Lo mismo ocurre en el caso de la evaluación de la fiabilidad y la seguridad de una prueba diagnóstica. En el caso de una RS para la evaluación de intervenciones comunitarias o en salud pública o la evaluación de resultados de una intervención a largo plazo, sobre todo en aspectos de seguridad, los estudios observacionales son más relevantes. Sin embargo, en ocasiones no habrá ECA sobre una intervención concreta, y habrá que analizar estudios observacionales.

En la Figura 1 se presenta, de forma simplificada, los elementos de la pregunta de investigación de interés de nuestro ejemplo y los criterios de inclusión y exclusión para la RS que se derivan de ella.

Figura 1. Ejemplo de los elementos de una pregunta de interés de una revisión sistemática y de los criterios de inclusión y exclusión de los estudios primarios.

Localización y selección de los estudios relevantes en relación con la pregunta de interés

Esta etapa consta de varios componentes:

1. Identificación de artículos potenciales
- • Decidir sobre restricciones en relación con el idioma de publicación.
- • Decidir sobre las fuentes de obtención de los estudios primarios.
- • Obtención de los títulos y resúmenes de los potenciales estudios primarios.
2. Selección de artículos potenciales
- • Aplicar los criterios de inclusión y exclusión a los títulos y resúmenes obtenidos.
- • Obtención de los artículos potenciales a partir de los títulos y resúmenes elegibles y aplicar los criterios de inclusión y exclusión.
- • Evaluar la concordancia en la selección de los estudios.

Identificación de artículos potenciales

Como ocurre en cualquier estudio de investigación, la presencia de errores en la extracción de datos puede invalidar los resultados de una RS. Es de suma importancia conseguir tantos estudios primarios sobre la pregunta de interés como sea posible. Con ello se persigue minimizar el error aleatorio y el sesgo. Si se omiten estudios, se puede introducir sesgo si la muestra finalmente seleccionada no es representativa. Hay que tomar dos decisiones en este punto: en relación con la restricción o no del idioma de publicación y en relación con la inclusión o exclusión de estudios no publicados en revistas médicas.

Con respecto al idioma, lo más frecuente por razones pragmáticas es incluir únicamente publicaciones en inglés y en el idioma nativo del autor de la RS. Sin embargo, los datos disponibles indican que la calidad de la investigación no está necesariamente en relación con el idioma de publicación11. Por el contrario, las restricciones en el idioma pueden sesgar los resultados de la RS al excluir estudios que pueden ser relevantes12.

Por razones de factibilidad, parece razonable incluir sólo los estudios publicados en revistas médicas. Se podría argumentar que estos, al haber superado un proceso de revisión por pares, son los más fiables13. Lo cierto es que, independientemente de su calidad, es menos probable que se publiquen estudios con resultados no concluyentes o negativos14, 15, por lo que su exclusión puede sesgar los resultados de la RS. Es el llamado sesgo de publicación, que da lugar a que es más probable que las RS que excluyen estudios no publicados sobrestimen la relación entre la exposición y el evento de interés. En situaciones extremas, podrían revelar como eficaces tratamientos totalmente fútiles16, 17.

Una vez tomada la decisión sobre las dos cuestiones anteriores el siguiente paso es crucial: ¿dónde buscar los estudios primarios? Existen varias estrategias:

• Bases de datos electrónicas: MEDLINE, EMBASE, CENTRAL.
• Bases de datos no indexadas: AMED, CINAHL, BIOSIS, etc.
• Búsqueda manual en sumarios de revistas, actas y sumarios de reuniones científicas y libros.
• Listas de referencias y citaciones: Science Citation Index y similares.
• Registros de estudios en curso (p. ej., clinicaltrials.gov).
• Contacto con compañías farmacéuticas.
• Contacto con colegas expertos en el tema de interés.

Evidentemente, la estrategia más utilizada hoy es la búsqueda en bases de datos electrónicas. Sin embargo, no es una estrategia simple, dado que, aunque hay un solapamiento entre bases de datos, muchas revistas incluidas en una base de datos específica no se consideran en otras. MEDLINE, por ejemplo, indexa tan sólo unas 5.600 de entre las más de 16.000 revistas biomédicas, la mayor parte en inglés. EMBASE indexa más de 1.000 revistas que no están incluidas en MEDLINE, muchas de ellas europeas. Otras bases de datos son complementarias a las anteriores, pues se ha realizado esfuerzos para registrar literatura sobre estudios no publicados (literatura gris)18.

La identificación de potenciales artículos elegibles se suele realizar, por operatividad, identificando títulos y resúmenes. Sin embargo, cada base de datos tiene su estructura particular y utiliza unos criterios de indexación y palabras clave más o menos específicas. Por ejemplo, en MEDLINE, el índice específico de vocabulario controlado se denomina MeSH (Medical Subject Headings). La ayuda de un documentalista experto en RS en esta fase es crucial. Además, hay que tener en cuenta que la estrategia de búsqueda finalmente utilizada tiene que aparecer en la publicación de la RS, con objeto de comprobar su reproducibilidad.

La búsqueda de estudios exclusivamente en bases de datos electrónicas podría no ser óptima según el tema de interés. En ocasiones, resulta conveniente incluir también una estrategia complementaria con objeto de identificar estudios no publicados. Esta fase es una de las más laboriosas, ya que suele requerir la búsqueda manual en sumarios de revistas o actas de congresos, contactos con expertos en el tema, con compañías farmacéuticas, etc. Puede comprenderse que todo ello conlleva una inversión importante en tiempo y recursos económicos. Consciente de ello, la Colaboración Cochrane ha impulsado una iniciativa internacional para desarrollar un registro de ensayos clínicos controlados, antiguamente conocido como Cochrane Controlled Trials Register y actualmente denominado CENTRAL19. Este recurso, que cuenta con cientos de miles de registros o citas de estudios publicados en revistas indexadas, así como en suplementos (habitualmente resúmenes de congresos), y se actualiza constantemente, es de indudable interés para la localización de ECA controlados20.

La aplicación de las estrategias de búsqueda en las diversas bases de datos electrónicas proporcionará un número habitualmente elevado de referencias bibliográficas. Además, es muy probable que un número elevado de ellas estén duplicadas entre las bases de datos. Por ello, resulta de gran utilidad utilizar en esta fase un software para la gestión automatizada de las citas bibliográficas como, por ejemplo, ProCite o Reference Manager.

Selección de artículos potenciales

A partir de los títulos y resúmenes identificados, se ha de realizar una primera selección o cribado de los potenciales artículos elegibles. Para ello es conveniente diseñar una hoja de selección de estudios que sea operativa incluyendo criterios explícitos y comprensibles21. Un ejemplo simple, en relación con la pregunta de interés antes referida, sería el expuesto en la Figura 2. Normalmente se comienza el proceso de selección mediante la revisión de títulos y resúmenes y, en caso de que haya dudas, se deberá revisar el artículo a texto completo.

Figura 2. Ejemplo de una hipotética hoja de selección de artículos potenciales para una revisión sistemática.

La selección de los estudios se ha de realizar por dos revisores de forma independiente, con objeto de aumentar la fiabilidad y la seguridad del proceso. Igualmente importante es medir el grado de acuerdo entre los revisores mediante el cálculo del estadístico kappa para cada uno de los ítems de la hoja de selección. Dicho estadístico, expresado de forma simple, mide el grado de acuerdo entre los revisores por encima de lo esperable por el azar22, 23. Para casos en que haya discrepancias entre los dos revisores respecto a la decisión de incluir o no un artículo, se suele nombrar a un tercer investigador sénior que arbitra las discrepancias y finalmente es quien toma la decisión.

Por último, es importante tener en cuenta que todo el proceso de localización y selección de estudios se ha de reportar correctamente, indicando en un diagrama de flujo los artículos identificados en cada fase, así como los eliminados y las causas de su eliminación (Figura 3).

Figura 3. Ejemplo del proceso de selección de estudios.

Extracción de datos de los estudios primarios

Esta fase requiere la máxima fiabilidad de la información que se recoge de cada estudio seleccionado por lo que, de nuevo, es conveniente que la extracción de datos se haga en duplicado. Si no es factible, una alternativa es la realización de una auditoría por un revisor independiente sobre una muestra de estudios escogida aleatoriamente.

La información a extraer de los estudios primarios se debe haber consensuado durante la fase de diseño del estudio. En general, debe ser aquella que nos permita aceptar o rechazar la hipótesis del estudio. De forma resumida, la hoja de extracción de datos suele incluir24:

A. Información sobre los pacientes, intervención de interés, intervención control y diseño de estudio.
B. Información sobre los resultados.
C. Información sobre la calidad metodológica del estudio.

El apartado A corresponde a toda información que pensamos que puede ser relevante por su potencial impacto en el resultado y puede variar entre estudios. En nuestro ejemplo, no será lo mismo un ECA en el que la edad media de los pacientes incluidos fuera de 65 años y con un tiempo medio puerta-balón de 63 min que otro con edad media de 75 años y tiempo puerta-balón de 96 min. Todas estas diferencias podrían explicar que la magnitud del efecto de la intervención varíe de un estudio a otro. Es decir, podrían ayudar a explicar la heterogeneidad del efecto. En todo caso, el reto consiste en conseguir un equilibrio en la exhaustividad de la información a recoger evitando, al mismo tiempo, un exceso de información innecesario que podría sobrecargar el trabajo de revisión.

La información del apartado B corresponde a la extracción de los resultados. El formato que elijamos dependerá de cómo estén definidos los eventos de interés: como variable dicotómica o como variable continua. En el primer caso, a veces será fácil obtener el número y el porcentaje de pacientes en los que sucedió el evento de interés en cada rama de la intervención. Otras veces los resultados vendrán expresados en forma de alguna medida de asociación o impacto: riesgo relativo, reducción de riesgo relativo, reducción absoluta de riesgo, razón de ventajas (odds ratio) o tasa de riesgo (hazard ratio). En la Figura 4 se presenta un ejemplo con una hipotética hoja de extracción de resultados. Afortunadamente, a partir de cualquiera de las medidas habituales de asociación o impacto es fácil llegar a obtener el número y porcentaje aproximado de pacientes con el evento de interés. En el caso de que la variable de resultado sea continua, por ejemplo fracción de eyección, la información de interés será la media y la desviación estándar en cada grupo de tratamiento.

Figura 4. Ejemplo de una hipotética hoja de extracción de resultados de estudios para una revisión sistemática. CV: cardiovascular; HR: hazard ratio; IC: intervalo de confianza; RAR: reducción absoluta de riesgo; RR: riesgo relativo; RRR: reducción de riesgo relativo; SCA: síndrome coronario agudo.

Por último, la hoja de extracción de datos debe incluir información sobre la calidad metodológica de cada estudio incluido, pues está estrechamente relacionada con la magnitud del efecto. Hay controversia sobre cuál es la mejor forma de reflejar la calidad metodológica de un estudio25. Hay quien defiende el uso de escalas de puntuación de calidad. Se han desarrollado varias26, la mayor parte de ellas para ECA. Algunas son genéricas y otras específicas para determinadas áreas clínicas. Sin embargo, se ha demostrado que el uso de una escala u otra puede variar sustancialmente los resultados de un MA27, por lo que ninguna es totalmente fiable. Recientemente, se ha desarrollado un nuevo sistema para cuantificar la calidad metodológica de los estudios incluidos llamado GRADE (Grading of Recommendations Assessment, Development, and Evaluation)28. Este sistema, desarrollado y consensuado por un grupo de líderes internacionales en realización de guías de práctica clínica, ofrece algunas ventajas interesantes frente a otros. Fundamentalmente:

• La calidad de la evidencia, clasificada como alta, moderada, baja y muy baja, se reporta separada del grado de recomendación (recomendación fuerte o débil).
• Se reconoce y se pondera por los valores y preferencias de los pacientes.
• Ofrece una interpretación clara y pragmática del grado de recomendación (fuerte o débil) para clínicos, pacientes y gestores.
• Evalúa explícitamente la importancia para los pacientes de las variables de resultado de las alternativas terapéuticas consideradas.

Algunos autores abogan por la recogida y valoración de elementos metodológicos individuales de cada estudio, en lugar de usar las controvertidas escalas29. La información dependerá del diseño de estudio seleccionado. En el caso concreto de los ECA, diseño más común en las RS sobre intervenciones, los elementos o dimensiones del diseño y la ejecución que están más relacionados con el riesgo de sesgo son: el tipo de ocultación de la asignación aleatoria, el tipo de enmascaramiento de las intervenciones, las pérdidas de seguimiento, el tipo de análisis o la interrupción precoz del ensayo por un beneficio aparente. En la Figura 5 se presenta un ejemplo hipotético de una hoja de recogida de elementos metodológicos de ECA.

Figura 5. Ejemplo de una hipotética hoja sobre elementos calidad de ensayos clínicos aleatorizados incluidos en una revisión sistemática.

Análisis y presentación de los resultados

La presentación resumida de los resultados de los estudios primarios, obtenidos mediante una metodología sistemática y reproducible, constituye en sí una RS cualitativa. El paso siguiente consiste en la combinación mediante métodos estadísticos de los resultados de los estudios primarios, es decir, el MA propiamente dicho.

Conceptualmente, el MA combina los resultados de dos o más estudios similares sobre una intervención particular, siempre que se hayan medido las mismas variables de resultado. El MA no consiste en una simple media aritmética de los resultados de los diferentes estudios, sino en una media ponderada. En otras palabras, el MA concede un mayor peso relativo a los estudios con mayor carga informativa, es decir, que tienen mayor tamaño y/o que presentan mayor número de eventos. Así, al combinar los resultados, se asigna un peso distinto a cada estudio, y se obtiene una media ponderada. Además, la combinación de los resultados tiene en cuenta tanto la variabilidad en un estudio como entre los estudios con el objeto de mejorar la validez de las conclusiones. Esto significa que si hay mucha variación entre los resultados de los estudios incluidos (heterogeneidad) podría no ser apropiado combinarlos estadísticamente. En este caso, se debería presentar únicamente los resultados (puede ser útil presentarlos de forma gráfica —plot en inglés—, pero sin combinarlos) y las características de los estudios individuales (en forma de tablas) sin más.

Básicamente existen dos modelos para combinar estadísticamente los resultados: el modelo de efectos fijos y el modelo de efectos aleatorios. El primero asume que el efecto del tratamiento es constante en todos los estudios, mientras que el segundo asume que sigue una distribución al azar entre los distintos estudios. En otras palabras, el modelo de efectos fijos asume que sólo hay una fuente de variabilidad en los resultados (la del estudio), mientras que el modelo de efectos aleatorios introduce una segunda fuente de variación entre los estudios. La consecuencia práctica de esto es que el modelo de efectos aleatorios suele producir estimaciones más conservadoras (intervalos de confianza más amplios) del efecto combinado. Emplear uno u otro modelo dependerá del juicio que realicemos sobre las similitudes y diferencias de los estudios que vamos a combinar, aunque normalmente se suele emplear los dos.

Ahora bien, ¿qué quiere decir que hay «heterogeneidad» entre los estudios y cómo se mide? Básicamente, se refiere al hecho de que, una vez ponderados, los resultados de los estudios individuales (el efecto de la intervención) difieren entre sí más de lo que cabría esperar por el azar. En otras palabras, ya sea por diferencias en el tipo de diseño empleado, en los métodos empleados para la recogida de información, en el tipo de análisis utilizado y/o en las características de la población de estudio, el efecto de la intervención fue «diferente» en cada uno de ellos. Por ejemplo, imaginemos que un ensayo clínico sobre un antihipertensivo incluyó un 70% de población afroamericana y otro estudio, con el mismo fármaco, incluyó sólo un 10%. Y ahora imaginemos que el efecto de dicho antihipertensivo es muy potente en la población afroamericana y es nulo en el resto de la población. Evidentemente, el efecto de la intervención en el primer estudio será positivo y nulo en el segundo. Combinar ambos estudios no será apropiado, pues obtendremos una estimación del efecto «medio» del antihipertensivo que nos oculta una realidad mucho más rica y compleja, y nos confunde.

Existen varios estadísticos para cuantificar la heterogeneidad. Los más comunes son el estadístico Q, el H y el I2. El más fácil de interpretar es el I2. Indica la proporción de la variabilidad observada en el efecto de la intervención (entre estudios) que se debe a heterogeneidad entre los estudios y no al azar. Se suele considerar que, si es del 25%, hay poca heterogenidad; del 50%, moderada, y del 75%, alta30.

Para la presentación gráfica de los resultados del MA se emplea el diagrama de árbol (forest plot). Este tipo de gráfico muestra los datos de los estudios individuales junto con una representación del peso estadístico de cada estudio en relación con los intervalos de confianza y el error estándar de la media. Por ejemplo, supongamos que en nuestro ejemplo combinamos ocho estudios con objeto de analizar el efecto de la angioplastia respecto a la fibrinolisis de mayores de 75 años en la mortalidad cardiovascular. La Figura 6A presenta el análisis combinado de los ocho estudios en forma de diagrama de árbol. Puede observarse que el efecto total no es concluyente y que, además, hay una importante heterogeneidad entre los estudios (I2=90%).

Figura 6. Metaanálisis del efecto de la angioplastia primaria frente a la fibrinolisis en la mortalidad total de pacientes con infarto de miocardio. A: considerando integralmente todos los estudios. B: análisis de subgrupos en función del tiempo puerta-balón; en la parte superior, estudios en que el tiempo medio puerta-balón excedió de 140 min, y en la parte inferior, aquellos en que el tiempo medio puerta balón fue < 90 min. IC: intervalo de confianza.

Una interpretación simplista sería que la angioplastia primaria no es superior respecto a la fibrinolisis para reducir la muerte cardiovascular en pacientes mayores de 75 años. Sin embargo, la alta heterogeneidad entre estudios nos debe hacer sospechar que ese resultado es poco realista. De hecho, ya visualmente se comprueba que el efecto de la angioplastia en los estudios 2, 4, 5 y 6 fue muy superior a la fibrinolisis, mientras que en los estudios 1, 3, 7 y 8 fue inferior. Una lectura detallada de esos estudios revela que el tiempo medio puerta-balón en los que la angioplastia superó a la fibrinolisis fue < 90 min en todos ellos, mientras que el tiempo medio puerta-balón en los que la angioplastia fue peor que la fibrinolisis superó los 140 min en todos ellos. Entonces, estaría justificado realizar un análisis por subgrupos, analizando por separado los estudios con tiempo puerta-balón < 90 min y aquellos con tiempos más largos. La Figura 6B presenta dichos resultados. Se puede observar cómo se reduce de forma importante la heterogeneidad en cada subgrupo y que los resultados son coherentes: importante beneficio de la angioplastia primaria con tiempos de puerta balón reducidos (parte inferior de la Figura 6B) y efecto inferior al de la fibrinolisis con tiempos superiores (parte superior de la Figura 6B).

Por último, hay que recalcar que existen guías y recomendaciones para la presentación y publicación de RS, cada una en forma de listado o lista de comprobación donde se enumeran los ítems que hay que declarar en la publicación. La guía MOOSE detalla los puntos específicos que ha de incluir una RS de estudios observacionales4, mientras que las guías PRISMA (que sustituyen a las QUORUM) se refieren a MA de ECA3. El lector interesado pude consultarlas por internet (http://www.consort-statement.org).

Interpretación de los resultados

Finalmente, la RS concluye con la interpretación de los resultados. Ello incluye una discusión sobre las limitaciones del estudio (de la revisión), como potenciales sesgos de los estudios originales, así como potenciales sesgos que podrían afectar a la RS en sí misma. También es importante una discusión sobre la consistencia de los hallazgos y su aplicabilidad, así como proponer recomendaciones para futuras investigaciones sobre el tema de interés.

REVISIONES SISTEMÁTICAS Y PRÁCTICA CLÍNICA

Por mucho que los hallazgos de una RS sean consistentes y convincentes, al final, es el clínico quien tiene que tomar una decisión sobre un paciente en particular. No deben tomarse los hallazgos de la RS como normas fijas e invariables fruto de la «ortodoxia evidencialista». Dicho de otra manera, hay que adaptar los hallazgos de una RS al paciente, y no al revés. En este sentido, antes de tomar una decisión sobre un paciente basándose en una RS, se recomienda la siguiente reflexión31:

¿Son aplicables los hallazgos a mi paciente?

La RS podría haber mostrado que la angioplastia primaria es superior a la fibrinolisis en pacientes ancianos. Pero imaginemos que mi paciente en particular presenta una condición que fue criterio de exclusión en todos los ensayos clínicos incluidos en la RS, como podría ser un aclaramiento de creatinina < 30ml/min. En este caso, nuestro paciente en concreto no estaría representado por los ensayos clínicos de la RS.

¿Es factible la intervención en mi paciente?

Puede haber diferencias regionales en la disponibilidad y/o la experiencia de aplicación de una técnica concreta, que hay que tener en cuenta a la hora de aplicar la intervención a un paciente individual.

¿Cuál es el riesgo-beneficio para mi paciente?

Aunque la intervención sea factible y aplicable, se deben considerar en cada paciente concreto los riesgos específicos, generalmente poco representados en los ensayos clínicos.

¿Cuáles son los valores y las preferencias de mi paciente en particular?

Acostumbrados a tomar decisiones en función de marcardores de necrosis miocárdica, electrocardiogramas y demás pruebas complementarias, podemos caer en una medicina excesivamente paternalista, en la que tratamos al paciente con la mejor intención, según lo que creemos que es mejor para él, pero sin contar con él.

Conclusiones

Las RS constituyen una herramienta esencial para sintetizar la información científica disponible, incrementar la validez de las conclusiones de estudios individuales e identificar áreas de incertidumbre donde sea necesario realizar investigación. Además, son imprescindibles para la práctica de una medicina basada en la evidencia. Sin embargo, la realización de una RS se debe llevar a cabo siguiendo una estricta metodología y un control de calidad para evitar conclusiones sesgadas. En última instancia, es el clínico quien tiene que tomar la decisión sobre un paciente en particular, y la RS es una herramienta más que se ha de utilizar de forma juiciosa en la toma de decisiones.

Conflicto de intereses

Ninguno.

Autor para correspondencia: Unidad de Epidemiología, Servicio de Cardiología, Hospital Vall d’Hebron, Pg. Vall d’Hebron 119-129, 08035 Barcelona, España. nacho@ferreiragonzalez.com

Bibliografía

[1]

Cook DJ, Mulrow CD, Haynes RB..

Systematic reviews: synthesis of best evidence for clinical decisions..

Ann Intern Med. , (1997), 126 pp. 376-380