En los últimos años, la inteligencia artificial y el aprendizaje profundo (DL, acrónimo del inglés, deep learning), se han convertido en tecnologías de gran interés en el campo de la medicina. El DL forma parte del aprendizaje automático basado en algoritmos con estructura de red neuronal multicapa, inspirado en el cerebro humano. Aunque no es un concepto nuevo, el rápido crecimiento de la informática y la disponibilidad de conjuntos de datos etiquetados de imágenes torácicas han facilitado su éxito y podrían alterar significativamente la forma en que se practica la medicina. Estos algoritmos son capaces de aprender de sus errores y de reorganizar sus redes neuronales, con lo que, igual que los seres humanos, están sometidos a un constante aprendizaje1. La radiografía de tórax y la tomografía computarizada, 2pilares de la radiología torácica, han sido de las modalidades de imagen más investigadas y han ido superando limitaciones de otras técnicas más convencionales al proporcionar interpretabilidad, transparencia, reproducibilidad y un alto rendimiento para alcanzar la credibilidad de los radiólogos, que las implementan en su práctica clínica2.
Con la evidente reducción de la mortalidad por cáncer de pulmón después de la detección de nódulos pulmonares con tomografía computarizada de tórax de baja dosis, clasificar o categorizar los nódulos con apoyo de DL reduce la variabilidad, mejora el rendimiento de los radiólogos y mejora también la clasificación de los pacientes en aquellos con cáncer de pulmón o sin él3. Más desafío supone su diagnóstico precoz en radiografía de tórax, en la que el DL detecta nódulos malignos con aceptables resultados y, a pesar de las limitaciones por los falsos positivos y superposiciones entre enfermedades torácicas, puede llegar a superar a los radiólogos y mejorar su rendimiento4.
En el estudio de las infecciones respiratorias, estas tecnologías han despertado gran interés. La Organización Mundial de la Salud recomienda la detección sistemática de tuberculosis activa en poblaciones de alto riesgo para reducir su carga mundial, pero, en muchos países con alta prevalencia, el número de radiólogos expertos es limitado. El DL ha mostrado rendimientos prometedores5, con áreas bajo la curva ROC que han llegado al 0,99 en algunas experiencias y al superar a los radiólogos torácicos, quienes mejoran su rendimiento después de revisar los resultados del algoritmo. De la misma forma, la Organización Mundial de la Salud destaca el valor potencial de esta herramienta6 con base en resultados similares obtenidos en la detección de neumonías. Una revisión actual plasma como la inteligencia artificial ha contribuido a mejorar el diagnóstico de la COVID-19, en la que ha conseguido excelentes precisiones, incluso en validaciones externas, lo que hace pensar en la posibilidad de su generalización7.
Sin embargo, algoritmos específicos para una sola enfermedad o huella radiológica pueden tener un valor limitado en la práctica clínica real, ya que la interpretación radiológica requiere la evaluación de diversas enfermedades y anomalías. Entrenar un algoritmo para cubrir todas las enfermedades que se pueden encontrar es casi imposible y la diferenciación de varias anormalidades puede ser una tarea difícil debido a hallazgos radiológicos superpuestos. Aun así, estos podrían ayudar a detectar múltiples enfermedades, incluso para los que no fueron dirigidos, con sensibilidades altas y un nivel de rendimiento comparable al de los radiólogos6, sobre todo, al de los médicos residentes de Radiología durante el desempeño de las guardias8.
Otro aspecto importante lo constituye la predicción del pronóstico del paciente o de la respuesta terapéutica. Los algoritmos permiten actuar como biomarcadores cuantitativos, en muchos casos con técnicas de segmentación (separación de la lesión del tejido adyacente), con una cuantificación automática que resulta lenta cuando es manual y que es casi imposible en la práctica diaria. Esta aumentaría la eficacia en la predicción de los radiólogos al evaluar cambios en el porcentaje de opacificación pulmonar comparando de forma evolutiva la progresión y eliminando, potencialmente, la subjetividad en la evaluación de los hallazgos9. Estos sistemas pueden ayudar a clasificar pacientes con diferentes etapas de enfermedad pulmonar obstructiva crónica o a predecir la aparición de agudizaciones y muerte10 o la estancia hospitalaria de pacientes infectados con coronavirus11.
De igual modo, los algoritmos podrían utilizarse para favorecer flujos de trabajo de imágenes que disminuyan el contacto con el paciente, optimicen la calidad de la imagen, mejoren la reproducibilidad de los protocolos técnicos, minimicen la dosis de radiación y racionalicen la dotación de personal, lo que reducirá los costes12. La integración de estos algoritmos puede hacerse verificando los hallazgos de forma simultánea, como segunda lectura del radiólogo a la interpretación provisional del algoritmo y posibilitando priorizar la lista de trabajo en términos de la gravedad de la enfermedad o de las anormalidades y reduciendo el tiempo de respuesta; también podrían emplearse en la preselección de exámenes negativos para priorizar la lista de trabajo y que los radiólogos interpretasen los exámenes positivos o no concluyentes13.
Para que un algoritmo reciba crédito y aceptación, debe explicar cómo ha llegado a los resultados (problema de «capas ocultas»), generalmente, utilizando un mapa de prominencia14 que destaca las áreas específicas de la imagen que contribuyeron a la salida final del algoritmo. Otro problema lo constituye el volumen y calidad de los datos empleados (se producirán malos resultados si los modelos se entrenan con datos no representativos), ya que la población real puede tener una prevalencia de enfermedad mucho más baja y un espectro mucho más amplio de enfermedades, algunas de las cuales pueden no estar cubiertas durante el desarrollo del algoritmo8. El gran desafío en el diagnóstico médico es la accesibilidad limitada de las imágenes médicas disponibles públicamente.
Otro tipo de problemas son los éticos, que pueden surgir del uso de datos de pacientes para entrenar estos sistemas de inteligencia artificial, o los que se plantean con base en la posible responsabilidad derivada de decisiones basadas en un algoritmo de inteligencia artificial15.
Como se ha descrito, cuando los humanos y la inteligencia artificial trabajan juntos, el rendimiento diagnóstico mejora, aunque esto no significa necesariamente mejores resultados para el paciente. Se debe buscar un diagnóstico integrado, con el potencial de personalizar aún más la atención médica, mucho más allá de lo que sería posible solo con aplicaciones de imágenes, estableciendo factores de enfermedad individualizados y decisiones personalizadas de tratamiento.