El efecto o las estimaciones resumidas de una revisión sistemática presentan lo que esperamos sea más cercano a la verdadera estimación del efecto; sin embargo, siempre habrá algún nivel de incertidumbre porque siempre existe la posibilidad de un error aleatorio. Por ello, hay que expresar lo seguro que se está de que las estimaciones del efecto presentadas son representativas de la verdad.
A lo largo del tiempo se diseñaron un amplio número de sistemas refinados de categorización de la evidencia científica, entre los que podemos señalar el modelo inglés Oxford Centre for Evidence-Based Medicine (OCEBM), el escocés Scottish Intercollegiate Guidelines Network (SIGN) o el estadounidense del American College of Chest Physicians (ACCP). Todos ellos atribuían diferentes niveles de calidad a los estudios sobre un determinado problema, que luego permitían asignar distintos grados de recomendación. Coexistían estas clasificaciones de la evidencia cuyo principal problema es la falta de interoperabilidad, de manera tal que no siempre un “nivel I” o una recomendación “grado A” significa lo mismo para cada sistema. Por este motivo surge GRADE (Grading of Recommendations Assessment, Development and Evaluation).
El sistema GRADE es el método más utilizado por revisores sistemáticos y desarrolladores de guías para evaluarse la calidad de la evidencia en las revisiones sistemáticas y para la evaluación de la calidad de la evidencia y la fuerza de las recomendaciones de la Guías de Práctica Clínica
Se diferencia de las anteriores herramientas de evaluación en:
- Separa la calidad de la evidencia y la fuerza de la recomendación. ;
- La calidad de la evidencia se evalúa por separado para cada resultado o desenlace de interés; y
- Los estudios observacionales se pueden subir su nivel inicial de calidad si cumplen con ciertos criterios (pueden hacer bajar o subir). Los ensayos clínicos aleatorizados solo pueden bajar su nivel alto inicial.
Esquema de aplicación de GRADE

Factores que pueden disminuir la calidad de la evidencia
Hay 5 criterios que se pueden usar para degradar (bajar uno, dos o, a veces tres grados). Estos son:
- Riesgo de sesgo en los estudios individuales, en los ECA por:
- Falta de una secuencia de asignación claramente aleatorizada.
- Falta de cegamiento.
- Falta de ocultación de la asignación.
- Incumplimiento del análisis por intención de tratar.
- La prueba se interrumpe.
- Grandes pérdidas durante el seguimiento.
- Inconsistencia de resultados entre estudios. Cuando existe una variabilidad significativa e inexplicable en los resultados de diferentes ensayos.
- La evidencia indirecta (por ejemplo, los participantes eran niños, aunque la revisión sistemática se centró en adultos) puede referirse a varias cosas (una comparación indirecta de dos fármacos, una comparación indirecta de población, resultado o intervención).
- Imprecisión cuando tenemos amplios intervalos de confianza.
- Sesgo de publicación.
Factores que pueden subir la calidad de la evidencia
- Efecto grande: cuando el efecto observado muestra una asociación fuerte (riesgo relativo u odds ratio >2 ó <0,5) o muy fuerte (riesgo relativo u odds ratio >5 ó <0,2).
- Relación dosis-respuesta: cuando el resultado es proporcional al grado de exposición.
- Evidencia de que todos los posibles factores de confusión o sesgos podrían haber reducido el efecto observado.
En el enfoque GRADE, los ensayos aleatorizados comienzan como evidencia de alta calidad y los estudios observacionales como evidencia de baja calidad, pero ambos pueden calificarse a la baja si existen preocupaciones graves en cualquiera de los dominios de GRADE y pueden calificarse si se cumplen criterios específicos.

De la evidencia a la elaboración de recomendaciones
GRADE evalúa el cuerpo de evidencia a través de los resultados individuales para determinar si se está muy seguros de que la estimación está cerca de la verdad (alta), moderadamente seguro de que la estimación se acerca a la verdad (moderada), tiene poca certeza de que la estimación se acerca a la verdad (baja), o tiene una certeza muy baja y se piensa que la estimación no se acerca en absoluto (muy baja).
La fuerza de la recomendación indica hasta qué punto podemos confiar si poner en práctica la recomendación conllevará más beneficios que riesgos.
La fuerza de las recomendaciones se apoya no solo en la calidad de la evidencia, sino en una serie de factores como son el balance entre riesgos y beneficios, los valores y preferencias de pacientes y profesionales y el consumo de recursos o costes.

Cómo usar GRADE

Los resultados de la evaluación se pueden presentar en la tabla de resumen, presentando los resultados abreviados.
El sistema GRADE cuenta con un software para la aplicación del mismo denominado GRADEpro GDT (https://www.gradepro.org/) que sintetiza y presenta la información para la toma de decisiones en el campo de la salud (permite la elaboración de tablas de resumen de los hallazgos).

Más información y recursos GRADE
GRADE handbook https://training.cochrane.org/resource/grade-handbook
GRADE working group https://www.gradeworkinggroup.org/
GRADEPro Website http://gradepro.org/ (Es el software usado para facilitar la aplicación del sistema GRADE a la elaboración de las Tablas de resumen de resultados (Summary of Findings, SoF) en revisiones Cochrane y al desarrollo de guías de práctica clínica).
Schünemann HJ, Higgins JPT, Vist GE, Glasziou P, Akl EA, Skoetz N, Guyatt GH. Chapter 14: Completing ‘Summary of findings’ tables and grading the certainty of the evidence. In: Higgins JPT, Thomas J, Chandler J, Cumpston M, Li T, Page MJ, Welch VA (editors). Cochrane Handbook for Systematic Reviews of Interventions version 6.2 (updated February 2021). Cochrane, 2021. Available from http://www.training.cochrane.org/handbookChu DK,
Golden DBK, Guyatt GH. Translating Evidence to Optimize Patient Care Using GRADE. J Allergy Clin Immunol Pract. 2021 Dec;9(12):4221-4230. doi: 10.1016/j.jaip.2021.09.035. PMID: 34624540.