IA supera a lectores humanos en detección de nódulos pulmonares en rayos X
Actualizado el 20 Feb 2024
Actualmente, más de 150 productos de software basados en inteligencia artificial (IA) están disponibles en el mercado europeo para radiología, y muchos de ellos abordan casos de uso similares. Esto dificulta que los departamentos de radiología determinen qué software es el más adecuado para sus necesidades. Si bien el desempeño del software es un factor crucial en el proceso de adquisición, los datos públicos son escasos sobre el desempeño de estos productos. Los centros clínicos a menudo carecen de los recursos y el personal para evaluar y comparar exhaustivamente varios productos antes de realizar una compra. Para abordar este problema, se lanzó una iniciativa llamada Project AIR que tiene como objetivo mejorar la transparencia del mercado para la IA en radiología. Los investigadores de Project AIR han compilado una base de datos verificada de imágenes médicas para diversos usos clínicos. Esta base de datos permite realizar pruebas comparativas de múltiples algoritmos de IA.
Ahora, en las primeras pruebas del concepto de Project AIR, los investigadores descubrieron que de siete algoritmos de IA probados para detectar nódulos pulmonares en rayos X, cuatro superaron a los lectores humanos en rendimiento, mientras que dos algoritmos para la predicción de la edad ósea no cumplieron con las expectativas. Para probar el concepto de Project AIR, un equipo que incluyó investigadores de la Universidad de Radboud (Nijmegen, Países Bajos) invitó a participar a desarrolladores de IA. Entre junio de 2022 y enero de 2023, se validaron nueve productos de ocho proveedores: dos para la predicción de la edad ósea y siete para la evaluación de nódulos pulmonares (un proveedor participó en las dos categorías). El equipo observó que los dos algoritmos para el análisis de la edad ósea, Visiana y Vuno, demostraron una excelente correlación con el estándar de referencia, logrando coeficientes de correlación r de 0,987-0,989 (donde 1 indica una concordancia perfecta). En el análisis de nódulos pulmonares, hubo una variación más significativa en el desempeño, con lectores humanos que promediaron un área bajo la curva (AUC) de 0,81. Los algoritmos de IA de Annalise.ai, Lunit, Milvue y Oxipit mostraron un desempeño superior, con AUC de 0,90, 0,93, 0,86 y 0,88, respectivamente. Las próximas pruebas del concepto Project AIR se centrarán en algoritmos de IA para la detección de fracturas.
"Hemos demostrado la viabilidad de la metodología de Project AIR para la validación externa de productos comerciales de inteligencia artificial (IA) en imágenes médicas", señalaron los investigadores. "Es concebible que en el futuro, los departamentos de radiología exijan a los proveedores que participen en evaluaciones comparativas y transparentes como requisito previo a la compra de productos de IA".
Enlaces relacionados:
Universidad de Radboud