La evaluación de la calidad de la evidencia en revisiones sistemáticas (RS) es esencial para la toma de decisiones. Aunque el sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) ofrece un enfoque consolidado para calificar el nivel de evidencia, su aplicación es compleja y requiere mucho tiempo. La inteligencia artificial (IA) puede utilizarse para superar estas barreras.
En este contexto, acaba de publicarse un estudio experimental analítico que busca desarrollar y evaluar la herramienta URSE basada en IA para la semiautomatización de una adaptación del sistema de clasificación GRADE, determinando niveles de evidencia en RS con metaanálisis compilados de ensayos clínicos aleatorizados (1).
Las conclusiones de este estudio revelan que el rendimiento del sistema GRADE automatizado URSE es insatisfactorio en comparación con los evaluadores humanos. Este resultado indica que el objetivo de utilizar la IA para GRADE no se ha alcanzado.
Las limitaciones del sistema GRADE automatizado URSE reforzaron la tesis de que las herramientas potenciadas por IA deben utilizarse como una ayuda para el trabajo humano y no como un sustituto del mismo. En este contexto, el sistema GRADE automatizado URSE puede utilizarse como segundo o tercer revisor, lo que mejora la objetividad de las dimensiones GRADE, reduce el tiempo de trabajo y resuelve discrepancias.
Los resultados demuestran el uso potencial de la IA en la evaluación de la calidad de la evidencia. Sin embargo, considerando el énfasis del enfoque GRADE en la subjetividad y la comprensión del contexto de producción de evidencia, la automatización completa del proceso de clasificación no es oportuna. No obstante, la combinación del sistema GRADE automatizado URSE con la evaluación humana o la integración de esta herramienta en otras plataformas representa direcciones interesantes para el futuro.
En el siguiente enlace encontrarás un resumen del artículo:
https://hacia-la-automatizacion--1z75d14.gamma.site/
BIBLIOGRAFÍA
Oliveira dos Santos A, Belo VS, Mota Machado T, et al. Toward automating GRADE classification: a proof-of-concept evaluation of an artificial intelligence-based tool for semiautomated evidence quality rating in systematic reviews. BMJ Evidence-Based Medicine. 2025. doi: 10.1136/bmjebm-2024-113123
GRADE (Grading of Recommendations Assessment, Development and Evaluation) es el método más utilizado por revisores sistemáticos y desarrolladores de guías para evaluar la calidad de la evidencia de los estudios que se incluirán en las revisiones sistemáticas y guías de práctica clínica y decidir si recomendar una intervención.
El sistema GRADE propone las siguientes definiciones (Grupo de trabajo sobre GPC, 2016; Schünemann H, 2013):
Calidad de la evidencia: indica hasta qué punto nuestra confianza en la estimación de un efecto es adecuada para apoyar una recomendación.
Fuerza de la recomendación: indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.
GRADE se diferencia de otras herramientas de evaluación por 3 razones:
Separa la calidad de la evidencia y la fuerza de la recomendación;
La calidad de la evidencia se evalúa por separado para cada resultado o desenlace de interés. Para cada uno de los desenlaces o resultados clave se efectúa una evaluación; así, una misma comparación de una intervención terapéutica o preventiva puede recibir diferentes asignaciones de la calidad de la evidencia; y
Los estudios observacionales se pueden ‘refinar’ su nivel inicial de calidad si cumplen con ciertos criterios (pueden hacer bajar o subir el escalón o nivel de la calidad inicialmente asignada). Los ensayos clínicos aleatorizados solo se pueden refinar a la baja.
Esquema del proceso GRADE
El proceso GRADE comienza con una pregunta clínica focalizada (conocida como PICO con sus elementos de población, intervención, comparador, resultado) que luego se convierte en la base de una RS. A la hora de elegir los desenlaces a analizar, GRADE recomienda la elección de desenlaces críticos para la toma de decisiones (que pueden no ser necesariamente los que cuentan con más evidencia disponible). Por ejemplos de desenlaces graves serían la hemorragia grave, una fractura vertebral o la muerte.
Una vez extraída y resumida la evidencia, se clasifica según la certeza en las estimaciones del efecto, que en el contexto de una RS refleja el grado de nuestra confianza en que las estimaciones del efecto son correctas. Las cuatro categorías son alta, moderada, baja y muy baja; cuanto más bajo es el nivel, más probable es que investigaciones adicionales de alta calidad puedan cambiar nuestra confianza en las estimaciones y en las propias estimaciones.
Cómo usar GRADE
Según GRADE, la certeza puede ser alta, moderada, baja y muy baja. Inicialmente, la calidad de la evidencia se clasifica, en alta o baja, según provenga de estudios experimentales u observacionales (inicialmente en alta si los estudios incluidos son estudios aleatorios o baja si son estudios observacionales); posteriormente, según una serie de consideraciones, el nivel de calidad de la evidencia queda establecido en 4 categorías: alta, moderada, baja y muy baja.
Inicialmente, se considera que un conjunto de ensayos aleatorizados se considera que proporciona evidencia de alta certeza, mientras que los estudios observacionales comienzan como evidencia de baja certeza evidencia.
En determinadas circunstancias, esta certeza puede disminuir o aumentar.
Hay 5 criterios que se pueden usar para degradar uno, dos o, a veces, tres pasos. Estos son:
Riesgo de sesgo en los estudios individuales, en los ECA se consideran problemas metodológicos en los estudios incluidos, como un cegamiento inadecuado (los participantes sabían que estaban en el grupo de control / tratamiento):
Falta de una secuencia de asignación claramente aleatorizada.
Falta de cegamiento.
Falta de ocultación de la asignación.
Incumplimiento del análisis por intención de tratar.
La prueba se interrumpe.
Grandes pérdidas durante el seguimiento.
Hay pruebas sólidas que apoyan la opinión de que la falta de asignación al azar, la falta de ocultación de la asignación y la ausencia de cegamiento dan lugar a sesgo. El análisis por intención de tratar también es importante para evitar el sesgo que surge cuando los que abandonan los ensayos debido a efectos nocivos no se contabilizan. De manera similar, los resultados provisionales de los ensayos que se acortan a menudo conducen a tamaños del efecto sobreestimados. Las grandes pérdidas debidas al seguimiento también conducen a estimaciones del efecto exageradas. Por ejemplo, en un ensayo controlado aleatorio que comparó programas de pérdida de peso en participantes obesos, el 27% de los participantes se perdieron durante el seguimiento en un año. Existe un supuesto sesgo positivo conferido a este estudio, ya que los participantes que se beneficiaron del tratamiento tenían más probabilidades de permanecer en el ensayo.
En los estudios observacionales se consideran: limitaciones en los criterios de inclusión de los pacientes, limitaciones en la medida de los resultados (como el sesgo de memoria), el control inadecuado de los factores de confusión o el seguimiento incompleto.
2. Inconsistenciade resultados entre estudios. Cuando existe una variabilidad significativa e inexplicable en los resultados de diferentes ensayos.
3. La evidencia indirecta (por ejemplo, los participantes eran niños, aunque la revisión sistemática se centró en adultos) puede referirse a varias cosas.
Una comparación indirecta de dos fármacos. Si no hay ensayos que comparen los fármacos A y B directamente, inferimos una comparación basada en ensayos separados que comparan el fármaco A con placebo y el fármaco B con placebo. Sin embargo, la validez de tal inferencia depende de la suposición, a menudo injustificada, de que las dos poblaciones de ensayo eran similares.
Una comparación indirecta de población, resultado o intervención, por ejemplo, los estudios de la revisión investigaron una intervención, en una población con un resultado determinado, pero las conclusiones de los estudios están destinadas a ser aplicables a intervenciones, poblaciones o resultados. Por ejemplo, el American College of Chest Physicians (ACCP) rebajó la calidad de la evidencia para el uso de medias de compresión en pacientes con traumatismos de alta a moderada porque todos los ensayos controlados aleatorios se habían realizado en la población general.
4. Imprecisión cuando los amplios intervalos de confianza estropean la calidad de los datos.
5. Sesgo de publicación cuando los estudios con resultados «negativos» permanecen sin publicar, ya que es menos probable que se publiquen los estudios que no muestran un efecto estadísticamente significativo. Esto puede sesgar el resultado de la revisión. Por ejemplo, Turner et al. examinaron todos los ensayos de antidepresivos registrados por la FDA. De 38 ensayos con resultados positivos, todos menos uno se publicaron, mientras que de los 36 ensayos con resultados negativos, 22 no se publicaron; una revisión sistemática de todos los estudios publicados arrojaría un resultado sesgado.
Las situaciones que pueden llevar a incrementar la confianza con los resultados de los estudios son poco comunes y se suelen aplicar sobre todo a estudios observacionales que evalúan el impacto de una intervención. Estos aspectos se deberían evaluar después de constatar que no se encuentra presente ninguna condición para disminuir la calidad de la evidencia debido a un potencial riesgo de sesgo u otros factores.
1) Fuerte asociación: hallazgos de efectos relativos RR>2, o < 0,5 en estudios observacionales sin factores de confusión.
2) Muy fuerte asociación: hallazgos de efectos relativos RR > 5, o <0,2 basados en estudios sin problemas de sesgo o precisión.
3) Existencia de gradiente dosis-respuesta (dose-response gradient).
4) Evidencia de que todos los posibles factores de confusión o sesgos podrían haber reducido el efecto observado.
La fuerza de una recomendación refleja hasta qué punto podemos confiar en que el efecto deseable de una intervención supera los efectos indeseables; en otras palabras, que es probable que el paciente experimente un beneficio neto. Es importante destacar que GRADE sólo tiene dos categorías de recomendación: fuerte y débil (que también puede denominarse condicional).
Para llegar a una fuerza de recomendación, GRADE define cuatro determinantes principales: el equilibrio entre consecuencias deseables e indeseables, la certeza de la evidencia, los valores y preferencias de los pacientes y la utilización de recursos. Hay tres consideraciones adicionales, a saber, la equidad, la aceptabilidad y la viabilidad.
Dentro de este marco, una recomendación fuerte para una intervención es más apropiada si los efectos deseables superan claramente el efecto indeseable, la certeza de la evidencia es alta o moderada, los valores y preferencias de los pacientes son bien conocidos y se piensa que son bastante consistentes, y se puede esperar que la utilización de recursos asociada sea baja; de lo contrario, será apropiada una recomendación débil.
Más información:
GRADEPro Website http://gradepro.org/ (Es el software usado para facilitar la aplicación del sistema GRADE a la elaboración de las Tablas de resumen de resultados (Summary of Findings, SoF) en revisiones Cochrane y al desarrollo de guías de práctica clínica).
Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Chapter 14: Completing ‘Summary of findings’ tables and grading the certainty of the evidence. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.2 (updated February 2021). Cochrane, 2021. Available from: http://www.training.cochrane.org/handbook
La declaración PRISMA 2009 indicaba que la sección de conclusiones de una revisión sistemática debe «proporcionar una interpretación general de los resultados en el contexto de otras evidencias» (1). En la actualización, PRISMA 2020 añade «argumente las implicaciones de los resultados para la práctica, las políticas y las futuras investigaciones» (2). Sin embargo, la declaración no requiere que los autores de revisiones sistemáticas hagan recomendaciones dentro de esta sección.
Las directrices de la Colaboración Cochrane (3) y del grupo de trabajo GRADE (4) establecen específicamente que las revisiones sistemáticas no deben incluir recomendaciones para la práctica. Así, podemos leer en el capítulo 15 del manual Cochrane que «Los autores de las revisiones deben evitar recomendaciones específicas que inevitablemente dependen de suposiciones sobre los recursos disponibles, los valores y las preferencias, y otros factores como las consideraciones de equidad, la viabilidad y la aceptabilidad de una intervención. El objetivo de la revisión debe ser presentar información y ayudar a su interpretación, más que ofrecer recomendaciones. La discusión y las conclusiones deben ayudar a las personas a comprender las implicaciones de las pruebas en relación con las decisiones prácticas y a aplicar los resultados a su situación específica. Los autores de la revisión pueden ayudar a esta comprensión de las implicaciones planteando diferentes escenarios que describan determinadas estructuras de valores». Cochrane y GRADE consideran que hacer recomendaciones para la práctica está fuera del alcance de una revisión sistemática y reservando las recomendaciones únicamente competencia de las guías de práctica clínica.
Por el contrario, la JBI sugiere que las recomendaciones pueden y deben incluirse también en las revisiones sistemáticas del JBI. Si consultamos su Manual (5), en el apartado de conclusiones se indica que «debe incluir las recomendaciones para la práctica inferidas de los resultados de la revisión e inferidas también sobre la base de la discusión sobre la generalizabilidad de los resultados y los factores potenciales que pueden afectar a la aplicabilidad de los resultados. A las recomendaciones se les debe asignar un Grado de Recomendación del JBI» (5).
BIBLIOGRAFÍA
Liberati A, Altman DG, Tetzlaff J et al. The PRISMA Statement for Reporting Systematic Reviews and Meta-Analyses of Studies That Evaluate Health Care Interventions: Explanation and Elaboration. PLoS Med. 2009;6(7):e1000100.
Page MJ, McKenzie JE, Bossuyt PM, Boutron I, Hoffmann TC, Mulrow CD, et al. The PRISMA 2020 statement: an updated guideline for reporting systematic reviews. BMJ 2021;372:n71. doi: 10.1136/bmj.n71
Schünemann HJ, Vist GE, Higgins JPT, Santesso N, Deeks JJ, Glasziou P, Akl EA, Guyatt GH. Chapter 15: Interpreting results and drawing conclusions. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.4 (updated August 2023). Cochrane, 2023. Available from http://www.training.cochrane.org/handbook.
Balshem H, Helfand M, Schunemann HJ et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-6.