La eliminación de duplicados es una tarea aparentemente técnica y secundaria dentro de una revisión sistemática, pero tiene consecuencias metodológicas importantes. Si una herramienta elimina por error un registro único, el equipo puede perder un estudio potencialmente relevante antes de iniciar el cribado. Si, por el contrario, deja demasiados duplicados sin eliminar, aumenta la carga de trabajo durante la selección por título y resumen.
Un estudio reciente publicado en Research Synthesis Methods compara la precisión y la velocidad de ocho herramientas de deduplicación: ASySD (The Automated Systematic Search Deduplicator), Covidence, Deduklick, EPPI-Reviewer, PICO Portal, Rayyan, SRA Deduplicator: Focused y SRA Deduplicator: Relaxed.
Los autores utilizaron cinco conjuntos de registros procedentes de revisiones Cochrane y los compararon con conjuntos de referencia creados por especialistas en información. Evaluaron tres resultados principales: registros únicos eliminados por error, duplicados retenidos por error y tiempo total de deduplicación.
.
Resultados principales
El estudio evaluó tres desenlaces principales:
- Registros únicos eliminados por error (false positives): registros que la herramienta consideró duplicados, aunque en realidad eran únicos. Es el error más crítico, porque puede hacer desaparecer estudios potencialmente elegibles.
- Duplicados retenidos por error (false negatives): duplicados que la herramienta no detectó. Es un problema menor desde el punto de vista metodológico, pero aumenta la carga de cribado.
- Tiempo total de deduplicación: incluye tanto el proceso automático como la revisión manual necesaria en algunas herramientas.
Desde el punto de vista metodológico, el desenlace más importante es la eliminación errónea de registros únicos. Un duplicado no eliminado puede detectarse más adelante durante el cribado. En cambio, un registro único eliminado antes del cribado puede desaparecer definitivamente del flujo de selección. En este sentido, Rayyan fue la herramienta más conservadora, con solo dos registros únicos eliminados por error. Sin embargo, este resultado se obtuvo a costa de un tiempo muy elevado de trabajo manual: más de veinte horas en total.
Por otro lado, ASySD fue la herramienta que menos duplicados dejó sin eliminar, pero también la que más registros únicos eliminó erróneamente. SRA Deduplicator: Relaxed fue la más rápida, pero retuvo muchos más duplicados que otras herramientas.
La siguiente tabla integra los resultados principales. En todos los casos, valores más bajos indican mejor rendimiento.
.

El mensaje más importante del estudio es que ninguna herramienta fue superior en los tres desenlaces. Todas presentaron fortalezas y debilidades.
.
¿Qué herramienta elegir?
Este estudio muestra que todas las herramientas evaluadas ofrecen un rendimiento suficientemente aceptable, pero ninguna domina claramente en todos los desenlaces. Por tanto, la pregunta práctica no debería ser “¿cuál es la mejor herramienta?”, sino “qué herramienta se ajusta mejor a las prioridades y recursos de este equipo de revisión”: tiempo disponible, presupuesto, necesidad de revisión manual y tolerancia al riesgo de perder registros únicos.
.

.
Para equipos de revisión, bibliotecarios médicos y especialistas en búsquedas, la lección práctica es clara: conviene documentar qué herramienta se utiliza, qué criterios se aplican y qué grado de revisión manual se realiza. La transparencia en la deduplicación forma parte de la calidad metodológica de la revisión.
.
Referencia
Bateup S, Fulbright H, Moberg K, Hair K, Peterson E, Stansfield CM, Qureshi R, Clark J. Evaluating the accuracy and speed of eight deduplication tools: A comparative study. Research Synthesis Methods. 2026;00:1-14. doi:10.1017/rsm.2026.10100.
Deja un comentario