Un estudio encuentra que la IA se queda corta al momento de analizar datos médicos

Por el equipo editorial de MedImaging en español
Actualizado el 29 Nov 2018
Un estudio realizado en la Facultad de Medicina Icahn en Monte Sinaí (Nueva York, NY, EUA) descubrió que las herramientas de inteligencia artificial (IA) entrenadas para detectar neumonía en las radiografías de tórax sufrieron una disminución significativa en el desempeño cuando las ensayaron en datos de sistemas de salud externos. Estos hallazgos sugieren que, a menos que la inteligencia artificial en el espacio médico sea probada cuidadosamente con respecto al desempeño en una amplia gama de poblaciones, los modelos de aprendizaje profundo pueden no funcionar con la exactitud que se espera.

En medio del creciente interés en el uso de marcos de sistemas informáticos denominados redes neuronales convolucionales (RNC) para analizar imágenes médicas y proporcionar un diagnóstico asistido por computadora, los estudios recientes han encontrado que la clasificación de imágenes de IA puede no generalizarse a los nuevos datos como se presenta comúnmente. Los investigadores de la Facultad de Medicina Icahn en Monte Sinaí evaluaron cómo los modelos de IA identificaron la neumonía en 158.000 radiografías de tórax en tres instituciones médicas. Eligieron estudiar el diagnóstico de neumonía en las radiografías de tórax debido a su aparición común, importancia clínica y prevalencia en la comunidad de investigación.

Los investigadores descubrieron que, en tres de cada cinco comparaciones, el desempeño de las RNC en el diagnóstico de enfermedades en los rayos X de hospitales fuera de su propia red, fue significativamente menor en comparación con los rayos X del sistema de salud original. Sin embargo, las RNC pudieron detectar el sistema hospitalario donde se adquirió una radiografía con un alto grado de exactitud e hicieron trampa en su tarea predictiva basada en la prevalencia de neumonía en la institución de capacitación. Los investigadores encontraron que el problema clave en el uso de modelos de aprendizaje profundo en medicina es el uso de una gran cantidad de parámetros, lo que dificulta la identificación de variables específicas que determinan las predicciones, como los tipos de escáneres de tomografía computarizada utilizados en un hospital y la calidad de resolución de las imágenes

“Nuestros hallazgos deberían detener a aquellos que piensan en el despliegue rápido de plataformas de IA sin evaluar rigurosamente su desempeño en entornos clínicos reales que reflejen dónde se implementan”, dijo el autor principal, Eric Oermann, MD, Instructor en Neurocirugía en la Facultad de Medicina Icahn en el Monte Sinaí. “Los modelos de aprendizaje profundo entrenados para realizar diagnósticos médicos pueden generalizarse bien, pero esto no puede darse por sentado ya que las poblaciones de pacientes y las técnicas de imagenología difieren significativamente entre las instituciones”.

“Si los sistemas de RNC se van a usar para el diagnóstico médico, se deben adaptar para considerar cuidadosamente las preguntas clínicas, ser probadas en una variedad de escenarios del mundo real y evaluadas cuidadosamente para determinar cómo afectan el diagnóstico exacto”, dijo el primer autor, John Zech, un estudiante de medicina en la Facultad de Medicina Icahn en Monte Sinaí.

Enlace relacionado:
Monte Sinaí


Últimas Industria noticias