Evaluacion de la calidad de los estudios incluidos en una revisión sistemática

Las revisiones sistemáticas, consideradas el estándar de oro para responder preguntas clínicas específicas, no están exentas de limitaciones. De hecho, una revisión sistemática refleja las limitaciones de los estudios que incluye, por lo que resulta imprescindible evaluar críticamente cada estudio seleccionado para determinar si puede introducir sesgos en los resultados globales.

Una vez seleccionados los estudios relevantes para una revisión sistemática, el siguiente paso clave es evaluar su calidad metodológica/riesgo de sesgo. Este proceso, lejos de ser neutro o puramente técnico, puede estar sujeto a sesgos de interpretación que afectan tanto la validez de los resultados como la confianza en las conclusiones.

Es importante distinguir entre riesgo de sesgo y calidad metodológica

El riesgo de sesgo se refiere a la posibilidad de que los resultados de un estudio estén sistemáticamente sobrestimados o subestimados debido a errores en su diseño o ejecución. Por ejemplo, un estudio con alta calidad metodológica puede tener alto riesgo de sesgo si, por razones inherentes al diseño, no se pudo aplicar el cegamiento. Del mismo modo, no todas las debilidades metodológicas suponen sesgo: omitir la predeterminación del tamaño muestral puede considerarse una limitación, pero no necesariamente introduce sesgo sistemático.

¿Qué puede sesgar la evaluación de calidad?

El juicio de calidad que emite una persona revisora no siempre es objetivo. Distintos factores pueden influir en su valoración:

  • Nombre de los autores o afiliaciones institucionales;
  • Revista donde se publica el estudio;
  • Resultados del estudio (si son positivos o negativos);
  • Experiencia previa y formación metodológica del evaluador:
  • Conflictos de interés, como ocurre cuando quienes evalúan han participado como autores en algunos de los estudios incluidos.

Por ejemplo, Pieper et al. (2018) encontraron que las revisiones sistemáticas en las que los autores de la revisión general también habían participado en alguna de las revisiones incluidas tendían a recibir puntuaciones de mayor calidad.

¿Cómo reducir el sesgo de interpretación?

Existen varias estrategias basadas que pueden ayudar a aumentar la objetividad y transparencia en la evaluación de calidad:

Usar herramientas estructuradas y validadas

Se recomienda utilizar herramientas formales de evaluación crítica o de riesgo de sesgo, adaptadas al diseño de los estudios incluidos.

Existen numerosos instrumentos desarrollados en las últimas décadas, lo que puede dificultar la elección. Algunas fuentes útiles para orientar esta decisión son:

El diagrama de flujo proporcionado por LATITUDES es una guía valiosa en este proceso de selección de la herramienta, pero es importante complementarlo con un conocimiento profundo de las características de cada herramienta y las especificidades del estudio en cuestión. Una selección cuidadosa asegura que todos los aspectos relevantes de la calidad del estudio sean evaluados adecuadamente, fortaleciendo así la validez de la síntesis de evidencia.

Evaluación por revisores múltiples

  • Se sugiere que dos revisores evalúen de forma independiente cada estudio.
  • Si no es posible una doble evaluación completa, al menos se recomienda que un segundo revisor verifique las evaluaciones realizadas, ya sea en todos los estudios o en una muestra.

Evaluación ciega

Algunas revisiones han experimentado con la evaluación ciega, ocultando nombres de autores y revistas durante la valoración. Sin embargo, los resultados son inconsistentes (Morissette, 2011).

BIBLIOGRAFÍA

Pieper D, Waltering A, Büchter RB. Quality ratings of reviews in overviews: a comparison of reviews with and without dual (co-)authorship. Syst Rev. 2018;7:63; doi: 10.1186/s13643-018-0722-9.

Morissette K, Tricco AC, Horsley T, et al. Blinded versus unblinded assessments of risk of bias in studies included in a systematic review. Cochrane Database of Systematic Reviews 2011;9(MR000025); doi: 10.1002/14651858.MR000025.pub2/full.

The LATITUDES Network. n.d. Available from: https://www.latitudes-network.org/ [Last accessed: 7/9/2025].

JBI. JBI Critical Appraisal Tools. n.d. Available from: https://jbi.global/critical-appraisal-tools [Last accessed: 7/9/2025].

Evaluar la calidad de los estudios incluidos en una revisión sistemática

Una revisión sistemática refleja las limitaciones de los estudios que incluye; por lo tanto, cada estudio elegible para su inclusión en una revisión sistemática requiere una evaluación crítica para determinar si el estudio no ha respondido correctamente a su pregunta de investigación de una manera libre de sesgos.

La red LATITUDES nos proporciona una visión general de la calidad de los estudios y relación entre los distintos componentes de la calidad. Enfatiza los 3 componentes principales de la calidad del estudio: validez interna, validez externa y calidad del informe/reporte.

El proceso de evaluación del riesgo de sesgo implica una valoración crítica y un juicio relativo a la existencia de riesgos potenciales de sesgo en el estudio. Un sesgo es un «error sistemático, o desviación de la verdad, en los resultados o inferencias» y esto puede conducir a hallazgos que no reflejen el resultado real. El sesgo (por ejemplo, las limitaciones del estudio) se refiere al riesgo de que los estudios sobrestimen o subestimen sistemáticamente el verdadero efecto de la intervención en función de un error en su realización o diseño.

El sesgo es distinto del concepto de calidad

Un estudio con «alta calidad metodológica» puede tener un «alto riesgo de sesgo» como, por ejemplo, cuando el cegamiento es imposible. Por otro lado, no todas las debilidades metodológicas introducen sesgos. Así, ciertos indicadores de «baja calidad metodológica» tienen poca probabilidad de influir en el riesgo de sesgo, como, por ejemplo, la no predeterminación del tamaño muestral.

Herramientas para la evaluación de la calidad

Hay muchas escalas escalas de calidad y listas de verificación (checklists) disponibles. Las revisiones Cochrane no las utilizan dado que no hay evidencia empírica que avale su uso, diferentes escalas llegan a diferentes conclusiones, la ponderación numérica no está justificada y las puntuaciones difíciles de interpretar por los lectores.

Herramientas para la evaluación del riesgo de sesgo

La RoB 2 de Cochrane se utiliza para la evaluación de ensayos clinicos. Valora 7 dominios (Generación de la secuencia aleatoria; Ocultamiento de la asignación; Cegamiento de los participantes y del personal; Cegamiento de los evaluadores del resultado; Datos de resultado incompletos; Notificación selectiva de los resultados; y Otras fuentes de sesgo) siendo la valoración de los revisores como de «bajo riesgo de sesgo» , «alto riesgo de sesgo» o «riesgo de sesgo poco claro«.

Para los estudios no aleatorizados también hay que evaluar el riesgo de sesgo: ROBINS (acrónimo de Risk Of Bias In Non-Randomized Studies). En la actualidad, existen dos versiones de esta herramienta: ROBINS-I, para estudios no aleatorizados de intervenciones y la recientemente lanzada ROBINS-E, que evalúa el efecto de una exposición en estudios de cohortes.

Además de las herramientas para estudios aleatorizados y no aleatorizados, se dispone de herramientas específicas para la evaluación de RoB en informes de casos y series de casos y diseños experimentales de caso único.

Estas herramientas proporcionan marcos estructurados para evaluar la calidad de diferentes tipos de estudios. Cada herramienta está diseñada para abordar las características únicas y los posibles sesgos asociados con diseños de estudio específicos. Por ejemplo, RoB 2 se centra en los ensayos controlados aleatorios, evaluando aspectos como el proceso de aleatorización y el cegamiento, mientras que ROBINS-I se utiliza para estudios de intervención no aleatorizados, considerando factores como el control de confusores.

Si los tipos de diseño de estudios incluidos en mi revisión sistemática son diferentes (p. ej.: EC, estudio de cohortes, …), ¿es mejor utilizar una herramienta genérica o elegir diferentes según el tipo de estudio?

Los autores de revisiones sistemáticas deben examinar los aspectos de riesgo de sesgo (RoB) específicos del diseño de cada estudio primario que incluyan como evidencia. Es poco probable que una única herramienta de valoración de los criterios de RoB sea adecuada para todos los diseños de investigación. Si utilizamos herramientas específicas según el diseño del estudio, nos aseguramos de que la evaluación de calidad se alinea con las consideraciones únicas y los sesgos asociados con cada diseño de estudio. Pero el uso de múltiples herramientas puede aumentar la complejidad y requerir una mayor familiaridad con cada herramienta específica.

La utilización adecuada de estas herramientas permite a los investigadores realizar evaluaciones de calidad más precisas y estandarizadas, mejorando la confiabilidad y la comparabilidad de las síntesis de evidencia. Es importante que los investigadores se familiaricen con la herramienta apropiada para su tipo de estudio y la utilicen de manera consistente en todo el proceso de síntesis de evidencia.

El diagrama de flujo proporcionado por LATITUDES es una guía valiosa en este proceso de selección de la herramienta, pero es importante complementarlo con un conocimiento profundo de las características de cada herramienta y las especificidades del estudio en cuestión. Una selección cuidadosa asegura que todos los aspectos relevantes de la calidad del estudio sean evaluados adecuadamente, fortaleciendo así la validez de la síntesis de evidencia.

Cómo evaluar el riesgo de sesgo

Hay que predefinir en la fase de Protocolo cómo se va a considerar el riesgo de sesgo en el análisis (definir si se va a meta-analizar los estudios con riesgo de sesgo alto o incierto). Al menos debe realizarse por 2 evaluadores de manera independiente siendo conveniente hacer un pilotaje con 3-6 estudios. Además, debemos definir en el Protocolo cómo se van a resolver los desacuerdos y aclarar la información que falta o no está clara en la publicación (por ejemplo, yendo al protocolo del estudio y/o contactar con los autores).

¿Cómo representa la evaluación del riesgo de sesgo en su manuscrito de revisión?

Se ha de resumir el riesgo de sesgo de los estudios incluidos y de cada desenlace. En esta figura se muestra un ejemplo de un resumen de la evaluación del riesgo de sesgo según la herramienta Cochrane de riesgo de sesgo aplicada a 8 ensayos clínicos aleatorizados como parte de una revisión sistemática sobre el calostro humano y bovino para la prevención de la enterocolitis necrotizante.

Figura del riesgo de sesgo. Reproducido de Sadeghirad B, Morgan RL, Zeraatkar D, Zea AM, Couban R, Johnston BC, Florez ID. Human and Bovine Colostrum for Prevention of Necrotizing Enterocolitis: A Meta-analysis. Pediatrics. 2018 Aug;142(2):e20180767. doi: 10.1542/peds.2018-0767.

El resumen de las evaluaciones del riesgo de sesgo para los estudios incluidos en la revisión sistemática incluye tanto la identificación del estudio como los juicios realizados sobre la posibilidad de que se introduzca el sesgo dentro de cada dominio del instrumento de riesgo de sesgo. En esta figura, los círculos verdes que incluyen un carácter más («+») representan dominios con bajo riesgo de sesgo, mientras que los círculos rojos que incluyen un guión («-«) representan dominios con alto riesgo de sesgo. 

Gráfico del riesgo de sesgo.

No debemos intentar resumir todos los resultado y todos los estudios a la vez. Hay que resumir por desenlace. Cada desenlace puede tener su evaluación propia del riesgo de sesgo (ej. cegamiento, datos de resultado incompleto). Además, no todos los estudios aportan información a cada desenlace. Debemos empezar resumiendo el riesgo de sesgo dentro de cada estudio y luego entre los estudios.

¿Debemos evaluar el riesgo de sesgo en las revisiones de alcance/scoping reviews?

Las revisiones de alcance no suelen incluir una evaluación del riesgo de sesgo. «Una diferencia clave entre las revisiones de alcance y las revisiones sistemáticas es que las primeras se realizan generalmente para proporcionar una visión general de la evidencia existente, independientemente de la calidad metodológica o del riesgo de sesgo. Por lo tanto, las fuentes de evidencia incluidas no suelen someterse a una valoración crítica en el caso de las revisiones de alcance» (Tricco).

¿Y fuera de ciencias de la salud?

Para disciplinas fuera de la medicina, el Critical Appraisal Skills Programme (https://casp-uk.net/casp-tools-checklists/) proporciona listas de comprobación que pueden aplicarse a diversos tipos de estudios, y la Mixed Methods Appraisal Tool puede ser un recurso útil si los estudios incluidos utilizan métodos mixtos y la JBI también incluye herramientas útiles.

Bibliografía

Whiting P, Wolff R, Savović J, Devine B, Mallett S, Introducing the LATITUDES Network: a Library of Assessment Tools and training to Improve Transparency, Utility and Dissemination in Evidence Synthesis, Journal of Clinical Epidemiology (2024), doi: https://doi.org/10.1016/j.jclinepi.2024.111486

Higgins JPT, Savović J, Page MJ, Elbers RG, Sterne JAC. Chapter 8: Assessing risk of bias in a randomized trial [last updated October 2019]. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.5. Cochrane, 2024. Disponible en www.training.cochrane.org/handbook.

Flemyng E, Moore TH, Boutron I, Higgins JP, Hróbjartsson A, Nejstgaard CH, et al. Using Risk of Bias 2 to assess results from randomised controlled trials: guidance from Cochrane. BMJ Evidence-Based Medicine [Internet]. 1 de agosto de 2023 [citado 14 de noviembre de 2024];28(4):260-6. Disponible en: https://ebm.bmj.com/content/28/4/260

Ciapponi A. Herramientas ROBINS para evaluar el riesgo de sesgo de estudios no aleatorizados. Evidencia – actualización En La práctica Ambulatoria. 2022;25(3):e007024. https://doi.org/10.51987/evidencia.v25i4.7024

Risk of bias tools. [accedido 12 noviembre 2024]. Disponible en: https://www.riskofbias.info/welcome.

Riesgo de sesgo | Primum non nocere. (2014). Retrieved September 28, 2024, from https://rafabravo.blog/2014/03/06/riesgo-de-sesgo/

Tricco A, Lillie E, Zarin W, O’Brien K, Colquhoun H, Levac D, Straus S. (2018). PRISMA extension for scoping reviews (PRISMA-ScR): Checklist and explanation. Ann Intern Med. 2018;169(7):467-473. https://doi.org/10.7326/M18-0850.   

JBI Critical Appraisal Tools | JBI. [accedido 12 noviembre 2024]. Disponible en: https://jbi.global/critical-appraisal-tools.

Newcastle-Ottawa-Scale (NOS): ¿es aconsejable su uso en revisiones sistemáticas?

Los autores de revisiones sistemáticas deben hacer una evaluación del riesgo de sesgo (RoB) para cada estudio primario que incluyan como evidencia. No existe una única herramienta de evaluación de los RoB que sea adecuada para todos los diseños de investigación. Además de herramientas para estudios aleatorizados y no aleatorizados, existen herramientas específicas para la evaluación de la RoB en informes de casos y series de casos y diseños experimentales de caso único.

Al igual que ocurre en otros pasos de las revisiones, la incomprensión de las herramientas para evaluar el RoB así como su aplicación incorrecta son problemas generalizados. Además, el tiempo y el esfuerzo necesarios para aplicar los estándares metodológicos recomendados por las principales organizaciones (Cochrane RoB-2 para ECA (1) y ROBINS-I (2) para intervenciones no aleatorizadas), puede hacer que los autores no sigan sus orientaciones y empleen métodos desaconsejados o anticuados. Por ejemplo, la escala Newcastle-Ottawa (NOS) es una herramienta comúnmente utilizada para valorar estudios no aleatorizados.

Wells y cols. (2) propusieron una escala para evaluar la calidad de los estudios no aleatorizados publicados en metaanálisis denominada Newcastle-Ottawa-Scale (NOS). Esta herramienta puede utilizarse como lista de comprobación o como escala.

Muchos autores justifican su selección de esta herramienta haciendo referencia justamente a una publicación que describe la falta de fiabilidad de la NOS y desaconseja su uso (3).

En esta publicación Stang señala:

«Creo que Wells et al. proporcionan una puntuación de calidad que tiene una validez desconocida en el mejor de los casos, o que incluye elementos de calidad que incluso no son válidos. La versión actual parece inaceptable para la clasificación de la calidad tanto de estudios de casos y controles como de estudios de cohortes en metaanálisis. El uso de esta puntuación en revisiones basadas en la evidencia y metaanálisis basados en la evidencia puede producir resultados muy arbitrarios«.

BIBLIOGRAFÍA

  1. Sterne JAC, Savović J, Page MJ, Elbers RG, Blencowe NS, Boutron I, et al. RoB 2: a revised tool for assessing risk of bias in randomised trials. BMJ 2019;366:l4894.
  2. Sterne JA, Hernán MA, Reeves BC, Savović J, Berkman ND, Viswanathan M, et al. ROBINS-I: a tool for assessing risk of bias in non-randomised studies of interventions. BMJ 2016;355:i4919.
  3. Wells GA, Shea B, O’Connell D, Peterson J, Welch V, Losos M, et al. The Newcastle-Ottawa Scale (NOS) for assessing the quality if nonrandomized studies in meta-analyses. Disponible en: URL: http://www.ohri.ca/programs/clinical_epidemiology/oxford.htm
  4. Stang A. Critical evaluation of the Newcastle-Ottawa scale for the assessment of the quality of nonrandomized studies in meta-analyses. Eur J Epidemiol 2010;25(9):603–605.