Una guía completa sobre el uso de la inteligencia artificial en radiología

La inteligencia artificial (IA) desempeña un papel cada vez más relevante en nuestras vidas y ha demostrado ser prometedora para abordar algunos de los mayores retos sociales actuales y futuros a los que nos enfrentamos. El sector sanitario, a pesar de su notoria complejidad y resistencia a la disrupción, puede beneficiarse significativamente del uso de la IA. Con un historial consolidado de liderazgo en la transformación digital de la atención sanitaria y una necesidad urgente de mejorar la eficiencia, la radiología se encuentra a la vanguardia en la exploración y el aprovechamiento del potencial de la IA.

Este libro aborda cómo y por qué la IA puede resolver los retos a los que se enfrentan las unidades de radiología, ofrece una visión general de los conceptos fundamentales relacionados con la IA y describe algunos de los casos de uso más prometedores de la IA en radiología. Además, se analizan los principales retos asociados a la adopción de la IA en la práctica radiológica habitual. El libro también abarca algunos aspectos esenciales que las unidades de radiología deben tener en cuenta a la hora de decidir qué soluciones basadas en IA adquirir. Por último, ofrece una visión de los aspectos emergentes y en constante evolución de la IA en el campo de la radiología que cabe esperar en un futuro próximo.

La inteligencia artificial en la radiología

En las últimas décadas, el sector sanitario ha experimentado una serie de tendencias que exigen un cambio en ciertas formas de actuar. Estas tendencias son especialmente significativas en el campo de la radiología, en el cual, la calidad diagnóstica de las exploraciones por imagen ha mejorado drásticamente, a la vez que se han reducido los tiempos de exploración. Como resultado, la cantidad y la complejidad de los datos obtenidos en imágenes médicas han aumentado sustancialmente (Smith-Bindman et al., 2019; Winder et al., 2021), y se prevé que sigan aumentando también en el futuro (Tsao, 2020). Este problema se complica por una escasez mundial generalizada de radiólogos (AAMC Report Reinforces Mounting Physician Shortage, 2021, Clinical Radiology UK Workforce Census 2019 Report, 2019). Los profesionales sanitarios, incluidos los radiólogos, deben hacer frente a una carga de trabajo cada vez mayor (Bruls y Kwee, 2020; Levin et al., 2017), lo que contribuye al agotamiento y a posibles errores médicos (Harry et al., 2021). Dado que la radiología es un proveedor de servicios esencial para prácticamente todas las demás unidades hospitalarias, la escasez de personal en este campo tiene efectos significativos que se extienden por todo el hospital y afectan a la sociedad en su conjunto (England & Improvement, 2019; Sutherland et al., s.f.). Con el envejecimiento de la población mundial y el aumento de la carga de enfermedades crónicas, se prevé que estos problemas supongan un reto aún mayor para el sector sanitario en el futuro.

Las soluciones de diagnóstico médico por la imagen basadas en la IA tienen el potencial de mejorar estos retos por varias razones. Son especialmente adecuadas para gestionar conjuntos de datos grandes y complejos (Alzubaidi et al., 2021). Además, son muy adecuadas para automatizar algunas de las tareas que tradicionalmente realizan radiólogos y radiógrafos, lo que puede liberar tiempo y hacer que los flujos de trabajo dentro de los departamentos de radiología sean más eficientes (Allen et al., 2021; Baltruschat et al., 2021; Kalra et al., 2020; O'Neill et al., 2021; van Leeuwen et al., 2021; Wong et al., 2019). La inteligencia artificial también tiene la capacidad de detectar patrones complejos de los datos que los seres humanos no siempre pueden identificar o cuantificar (Dance, 2021; Korteling et al., 2021; Kühl et al., 2020).

Fundamentos de la inteligencia artificial

El término «inteligencia artificial» se refiere al uso de sistemas informáticos para resolver problemas específicos de una forma que simula el razonamiento humano. Una característica fundamental de la IA es que, al igual que los seres humanos, puede adaptar sus soluciones a circunstancias cambiantes. Se debe tener en cuenta que, si bien estos sistemas están destinados a imitar cómo piensan los seres humanos a nivel fundamental, su capacidad para hacerlo (por ejemplo, en términos de la cantidad de datos que pueden manejar al mismo tiempo, la naturaleza y la cantidad de patrones que pueden encontrar en los datos y la velocidad a la que lo hacen) a menudo supera la de los seres humanos.

Las soluciones de IA se presentan en forma de algoritmos informáticos, que son fragmentos de código informático que representan instrucciones que se deben seguir para resolver un problema específico. En su forma más fundamental, el algoritmo toma datos como entrada, realiza algún cálculo sobre esos datos y devuelve una salida.

Un algoritmo de IA puede programarse explícitamente para resolver una tarea específica, de forma análoga a una receta paso a paso para hornear un pastel. Por otro lado, el algoritmo puede programarse para buscar patrones en los datos, con el fin de resolver el problema. Este tipo de algoritmos se conocen como algoritmos de aprendizaje automático. TPor tanto, todos los algoritmos de aprendizaje automático son IA, pero no toda la IA es aprendizaje automático. Los patrones de los datos que el algoritmo puede programar explícitamente para buscar o que puede «descubrir» por sí mismo se conocen como características. Una característica importante del aprendizaje automático es que dichos algoritmos aprenden de los propios datos, y su rendimiento mejora cuantos más datos se les dan.

Uno de los usos más habituales del aprendizaje automático es la clasificación: asignar a un dato una etiqueta particular. Así, por ejemplo, se puede utilizar un algoritmo de aprendizaje automático para saber si una foto (la entrada) muestra un perro o un gato (la etiqueta). El algoritmo puede aprender a hacerlo de forma supervisada o no supervisada.

Aprendizaje supervisado

En el aprendizaje supervisado, el algoritmo de aprendizaje automático recibe datos que han sido etiquetados como referencia, tal y como se puede ver en este ejemplo en fotos de perros y gatos que han sido etiquetadas. A continuación, el proceso pasa por las siguientes fases:

1.Fase de entrenamiento: el algoritmo aprende las características asociadas a perros y gatos utilizando los datos mencionados (datos de entrenamiento).
2.Fase de prueba: a continuación, el algoritmo recibe un nuevo conjunto de fotos (los datos de prueba), las etiqueta y se evalúa el rendimiento del algoritmo con esos datos.

En algunos casos, existe una fase intermedia entre la fase de entrenamiento y la de prueba, conocida como fase de validación. En esta fase, el algoritmo recibe un nuevo conjunto de fotos (no incluidas ni en los datos de entrenamiento ni en los de prueba), se evalúa su rendimiento con estos datos y el modelo se ajusta y se vuelve a entrenar con los datos de entrenamiento. Esto se repite hasta que se alcanza algún criterio predefinido basado en el rendimiento, y entonces el algoritmo entra en la fase de prueba.

Aprendizaje sin supervisión

En el aprendizaje no supervisado, el algoritmo identifica características en los datos de entrada que le permiten asignar clases a los puntos de datos individuales, sin que se le indique explícitamente cuáles son o deben ser esas clases. Estos algoritmos pueden identificar patrones o agrupar puntos de datos sin intervención humana, e incluyen algoritmos de agrupación y reducción dimensional.
No todos los algoritmos de aprendizaje automático realizan una clasificación. Algunos se utilizan para predecir una métrica continua (por ejemplo, la temperatura dentro de cuatro semanas) en lugar de una etiqueta discreta (por ejemplo, gatos frente a perros). Estos se conocen como algoritmos de regresión.

Redes neuronales y aprendizaje profundo

Una red neuronal está formada por una capa de entrada y una capa de salida, que a su vez están compuestas por nodos. En las redes neuronales simples, las características derivadas manualmente de un conjunto de datos se introducen en la capa de entrada, que realiza algunos cálculos cuyos resultados se transmiten a la capa de salida. En el aprendizaje profundo, existen múltiples capas «ocultas» entre las capas de entrada y salida. Cada nodo de las capas ocultas realiza cálculos utilizando determinados pesos y transmite la salida a la siguiente capa oculta, hasta llegar a la capa de salida.

Al principio, se asignan valores aleatorios a los pesos y se calcula la precisión del algoritmo. A continuación, los valores de los pesos se ajustan iterativamente hasta encontrar un conjunto de valores que maximice la precisión. En general, este ajuste iterativo de los valores se realiza retrocediendo desde la capa de salida a la capa de entrada, una técnica llamada retropropagación. Todo este proceso se realiza sobre los datos de entrenamiento.

Evaluación del rendimiento

Comprender cómo se evalúa el rendimiento de los algoritmos de IA es clave para interpretar la literatura existente sobre esta tecnología. Existen varias métricas de rendimiento para evaluar lo bien que un modelo realiza determinadas tareas. Ninguna métrica es perfecta, por lo que una combinación de varias métricas proporciona una imagen más completa del rendimiento del modelo.

Las métricas más utilizadas en la regresión, son:

  • Error absoluto medio (EAM): diferencia media entre los valores previstos y el valor real que se utiliza como referencia.
  • Raíz del error cuadrático medio (RECM): las diferencias entre los valores predichos y el valor real que se utiliza como referencial se elevan al cuadrado y se promedian sobre la muestra. A continuación, se realiza la raíz cuadrada de la media. A diferencia del EAM, la RECM otorga mayor peso a las diferencias más grandes.
  • R2: proporción de la varianza total en el valor real que se utiliza de referencia por la varianza en los valores predichos. Va de 0 a 1.

En las tareas de clasificación suelen utilizarse las siguiente métricas:

  • Precisión: proporción de todas las predicciones que se han hecho correctamente. Va de 0 a 1.
  • Sensibilidad: también conocida como tasa de verdaderos positivos (TVP) o recall, es la proporción de verdaderos positivos que se han predicho correctamente. Va de 0 a 1.
  • Especificidad: también conocida como tasa de verdaderos negativos (TVN), es la proporción de verdaderos negativos que se han predicho correctamente. Va de 0 a 1.
  • Precisión: también conocida como valor predictivo positivo (VPP), es la proporción de clasificaciones positivas que se han predicho correctamente. Va de 0 a 1.

Existe un equilibrio inherente entre la sensibilidad y la especificidad. La importancia de cada uno de ellos, así como su interpretación, depende en gran medida de la pregunta de investigación específica y de la tarea de clasificación.

Es importante destacar que, aunque los modelos de clasificación pretenden llegar a una conclusión binaria, están inherentemente basados en la probabilidad. Esto significa que estos modelos arrojarán una probabilidad de que un punto de datos pertenezca a una u otra clase. Para llegar a una conclusión sobre la clase más probable, se utiliza un umbral. Métricas como la exactitud, la sensibilidad, la especificidad y la precisión se refieren al rendimiento del algoritmo en función de un determinado umbral. El área bajo la curva característica operativa del receptor (AUC) es una métrica de rendimiento independiente de dicho umbral. El AUC puede interpretarse como la probabilidad de que el algoritmo clasifique mejor un ejemplo positivo aleatorio que un ejemplo negativo aleatorio.

En las tareas de segmentación de imágenes, que son un tipo de tarea de clasificación, se suelen utilizar las siguientes métricas:

  • Coeficiente de similitud de dados: medida de superposición entre dos conjuntos (por ejemplo, dos imágenes) que se calcula como el doble del número de elementos comunes a los conjuntos dividido por la suma del número de elementos de cada conjunto. Varía de 0 (sin superposición) a 1 (superposición perfecta).
  • Distancia de Hausdorff: medida de la distancia entre dos conjuntos (por ejemplo, dos imágenes) dentro de un espacio. Básicamente, es la mayor distancia entre un punto de un conjunto y el punto más cercano del otro conjunto.

Validez interna y externa

Los modelos internamente válidos desempeñan bien su tarea en los datos que se utilizan para entrenarlos y validarlos. El grado de validez interna se evalúa mediante los parámetros de rendimiento descritos anteriormente y depende de las características del propio modelo y de la calidad de los datos con los que se ha entrenado y validado.

Los modelos externamente válidos demuestran un buen rendimiento en tareas con datos nuevos (Ramspek et al., 2021). Cuanto mejor funcione el modelo con datos que difieran de los datos con los que se entrenaron y validaron los modelos, mayor será la validez externa. En la práctica, esto implica evaluar el desempeño de los modelos utilizando datos de hospitales o áreas geográficas que no formaron parte de los conjuntos de entrenamiento y validación.

Directrices para evaluar la investigación en IA

Se han elaborado varias directrices para evaluar la evidencia que sustenta las intervenciones basadas en la IA en la asistencia sanitaria (X. Liu et al., 2020; Mongan et al., 2020; Shelmerdine et al., 2021; Weikert et al., 2021). Estas proporcionan un modelo para quienes investigan la IA en la atención sanitaria y garantizan que la información pertinente se comunique de forma transparente y exhaustiva, pero también pueden ser utilizados por otras partes interesadas para evaluar la calidad de la investigación publicada. Esto ayuda a garantizar que las soluciones basadas en IA con limitaciones potenciales o reales sustanciales en particular aquellas causadas por informes deficientes (Bozkurt et al., 2020; D. W. Kim y otros, 2019; X. Liu et al., 2019; Nagendran et al., 2020; Yusuf et al., 2020), no se adopten prematuramente (CONSORT-AI y SPIRITAI Steering Group, 2019). Asimismo, también se han propuesto directrices para evaluar la fiabilidad de las soluciones basadas en IA en términos de transparencia, confidencialidad, seguridad y responsabilidad (Buruk et al., 2020; Lekadir et al., 2021; Zicari et al., 2021).

Usos clínicos

En los últimos años, la IA ha demostrado un gran potencial para abordar una amplia gama de tareas en las unidades de diagnóstico por la imagen, incluyendo muchas de las que se realizan antes de realizar las pruebas médicas. Las implementaciones de IA para mejorar la eficiencia de los flujos de trabajo radiológicos previos a la exploración del paciente se denominan a veces «IA ascendente» (Kapoor et al., 2020; M. L. Richardson et al., 2021).

Programación de las citas

Una aplicación prometedora de IA es predecir qué pacientes tienen más probabilidades de no acudir a sus citas de exploración. Las citas perdidas se asocian con un aumento significativo de la carga de trabajo y los costes (Dantas et al., 2018). Utilizando un enfoque de aumento de gradiente, Nelson et al. predijeron con gran precisión las citas de resonancia magnética (RM) hospitalarias perdidas en el Servicio Nacional de Salud (NHS) del Reino Unido (Nelson et al., 2019). Las simulaciones también indicaron que tomar medidas basadas en las predicciones de este modelo, dirigiéndose a los pacientes que probablemente falten a sus citas, podría generar un beneficio neto potencial de varias libras por cita, considerando una variedad de umbrales del modelo y tasas de citas perdidas (Nelson et al., 2019). Recientemente, se han obtenido resultados similares en un estudio realizado en un único hospital de Singapur. Durante los seis meses siguientes a la implantación de la herramienta predictiva, lograron reducir significativamente la tasa de pacientes que no acudían a sus citas del 19,3 % al 15,9 %, lo que se tradujo en un beneficio económico potencial de 180 000 dólares (Chong et. al., 2020).

La programación de las pruebas en un servicio de radiología es una tarea ardua ya que, aunque se trata en gran medida de una tarea administrativa, depende en gran medida de la información médica. La asignación de pacientes a citas específicas suele depender de personas con conocimientos en el ámbito. Esto implica que la persona encargada de programar las citas debe ser un radiólogo o un técnico de radiología, o bien estas personas deben proporcionar información de manera regular. En cualquiera de los dos casos, el proceso es algo ineficaz y puede racionalizarse mediante algoritmos basados en IA que comprueben las indicaciones y contraindicaciones de las exploraciones y proporcionen a las personas que las programan información sobre su urgencia (Letourneau-Guillon et al., 2020).


Dependiendo de la política del hospital o de la clínica, la decisión sobre el protocolo exacto de exploración que sigue un paciente suele tomarse basándose en la información de la solicitud del médico y en el criterio del radiólogo. A menudo, esto se complementa con la comunicación directa entre el médico remitente y el radiólogo, y la revisión por parte del radiólogo de la información médica del paciente. Este proceso mejora la atención al paciente (Boland et al., 2014), pero puede llevar mucho tiempo y ser ineficaz, sobre todo con modalidades como la RM, en la que existe un gran número de cambios de protocolos. En un estudio, la elaboración de protocolos por sí sola representó alrededor del 6 % del tiempo de trabajo del radiólogo (Schemmel et al., 2016). Los radiólogos también suelen verse interrumpidos por tareas como la protocolización a la hora de interpretar imágenes, a pesar de que esta última se considera la responsabilidad principal de un radiólogo (Balint et al., 2014; J.-P. J. Yu et al., 2014).

Se ha intentado interpretar el texto narrativo de la solicitud del médico remitente utilizando clasificadores de lenguaje natural, la misma tecnología utilizada en chatbots y asistentes virtuales. Los clasificadores de lenguaje natural basados en aprendizaje profundo han demostrado ser prometedores en la asignación de pacientes a un protocolo de RM con o sin contraste en la RM osteomuscular, con una precisión del 83 % (Trivedi et al., 2018) y del 94 % (Y. H. Lee, 2018). Algoritmos similares han mostrado una precisión del 95 % en la predicción del protocolo de RM cerebral adecuado utilizando una combinación de hasta 41 secuencias de RM diferentes (Brown y Marotta, 2018). En una amplia gama de regiones del cuerpo, un clasificador de lenguaje natural basado en el aprendizaje profundo decidió, basándose en el texto narrativo de las solicitudes de exploración, si asignar automáticamente un protocolo específico de tomografía computarizada (TC) o de resonancia magnética (con una precisión del 95 %) o, en casos más difíciles, recomendar al radiólogo una lista de los tres protocolos más adecuados (con una precisión del 92 %) (Kalra et al., 2020).

La IA también se ha utilizado para decidir si es necesario ampliar exploraciones ya protocolizadas, una decisión que debe tomarse en tiempo real mientras el paciente se encuentra dentro del escáner. Un ejemplo de ello es la resonancia magnética de próstata, en la que la decisión de administrar o no un medio de contraste suele tomarse después de las secuencias sin contraste. Hötker et al. hallaron que una red neuronal convolucional (CNN) asignaba el 78 % de los pacientes al protocolo de RM de próstata adecuado (Hötker et al., 2021). La sensibilidad de la CNN para detectar la necesidad de utilizar el medio de contraste fue del 94,4 %, con una especificidad del 68,8 %. Solo fue necesario someter al 2 % de los pacientes del estudio a una exploración adicional con contraste (Hötker et al., 2021).

Mejora y monitorización de la calidad de las imágenes

Recientemente, se han creado numerosas soluciones basadas en IA que funcionan en segundo plano en los flujos de trabajo radiológicos para mejorar la calidad de las imágenes. Entre ellas se incluyen soluciones para controlar la calidad de las imágenes, reducir los artefactos de imagen, mejorar la resolución espacial y acelerar las exploraciones.

Este tipo de soluciones se están incorporando a la radiología, sobre todo en el caso de la tomografía computarizada, que durante décadas utilizó métodos consolidados, pero propensos a los artefactos, para reconstruir imágenes interpretables a partir de los datos brutos del sensor (Deák et al., 2013; Singh et al., 2010). Estos están siendo reemplazados gradualmente por métodos de reconstrucción basados en aprendizaje profundo, que mejoran la calidad de la imagen manteniendo bajas dosis de radiación (Akagi et al., 2019; H. Chen et al., 2017; Choe et al., 2019; Shan et al., 2019).

Esta reconstrucción se realiza en superordenadores en el propio escáner de TC o en la nube. El equilibrio entre la dosis de radiación y la calidad de la imagen puede ajustarse en función del protocolo para adaptar las exploraciones a pacientes individuales y situaciones clínicas (McLeavy et al., 2021; Willemink & Noël, 2019). Estos enfoques se han utilizado especialmente en exploraciones de niños, mujeres embarazadas y pacientes obesos, así como en exploraciones por TC de las vías urinarias y el corazón (McLeavy et al., 2021).

También se han utilizado soluciones basadas en IA para acelerar las exploraciones manteniendo la calidad del diagnóstico. La reducción del tiempo de exploración no solo mejora la eficiencia general del proceso, sino que también contribuye a mejorar la experiencia general del paciente y el cumplimiento de las pruebas de diagnóstico por la imagen. En un estudio multicéntrico de resonancia magnética de columna, se halló que un algoritmo de reconstrucción de imágenes basado en el aprendizaje profundo, que mejoraba las imágenes mediante el filtrado y la reducción del ruido preservando los detalles, reducía el tiempo de exploración en un 40 % (Bash, Johnson y otros, 2021). En el caso de las exploraciones cerebrales por RM ponderada en T1, un algoritmo similar que mejora la nitidez de la imagen y reduce el ruido de la misma redujo el tiempo de exploración en un 60 %, manteniendo al mismo tiempo la precisión de la volumetría de las regiones cerebrales en comparación con las exploraciones estándar (Bash, Wang, et al., 2021).

En la práctica radiológica habitual, las imágenes suelen contener artefactos, lo que dificulta su interpretación. Estos artefactos se deben a características específicas de la modalidad o protocolo de imagen utilizados, así como a factores intrínsecos del paciente explorado, como la presencia de cuerpos extraños o el movimiento del paciente durante la exploración. Especialmente en el caso de la RM, los protocolos de obtención de imágenes que exigen una exploración rápida suelen introducir ciertos artefactos en la imagen reconstruida. En un estudio, un algoritmo basado en el aprendizaje profundo redujo los artefactos de bandas asociados a secuencias de RM de precesión libre en estado estacionario equilibradas del cerebro y la rodilla (K. H. Kim y Park, 2017). En otro un estudio se halló que los artefactos de aliasing introducidos por el submuestreo de datos en imágenes de RM de corazón en tiempo real se redujeron mediante el uso de un enfoque basado en el aprendizaje profundo (Hauptmann et al., 2019). La presencia de cuerpos extraños metálicos, como implantes dentales, ortopédicos o vasculares, es un factor habitual relacionado con el paciente que causa artefactos en las imágenes, tanto en la TC como en la RM (Boas & Fleischmann, 2012; Hargreaves et al., 2011). Aunque todavía no están bien consolidados, se han investigado varios enfoques basados en el aprendizaje profundo para reducir estos artefactos (Ghani & Clem Karl, 2019; Puvanasunthararajah et al., 2021; Zhang & Yu, 2018). En este sentido, se están probando enfoques similares para reducir los artefactos relacionados con el movimiento en la RM (Tamada et al., 2020; B. Zhao et al., 2022).

Las soluciones basadas en la IA para evaluar la calidad de las imágenes podrían reducir la necesidad de pedir a los pacientes que acudan de nuevo al hospital con el fin de repetir las pruebas de diagnóstico por la imagen, un problema habitual en la práctica médica (Hötker et al., 2017). Un algoritmo basado en aprendizaje profundo que identifica la vista radiográfica adquirida y extrae métricas relacionadas con la calidad de las radiografías de tobillo fue capaz de predecir la calidad de las imágenes con una precisión aproximada del 94 % (Mairhöfer et al., 2021). Otro enfoque basado en el aprendizaje profundo fue capaz de predecir exploraciones por resonancia magnética hepática no diagnósticas con un valor predictivo negativo de entre el 86 % y el 94 % (Esses et al., 2018). Este control de calidad automatizado en tiempo real permite a los técnicos radiólogos repetir las exploraciones o realizar exploraciones adicionales con mayor valor diagnóstico.

Priorización de la lectura de las pruebas

Ante la escasez de personal y el creciente número de exploraciones, los radiólogos se enfrentan a extensas listas de pruebas por leer y analizar. Para optimizar la eficiencia y la atención al paciente, se han propuesto soluciones basadas en la IA que priorizan las exploraciones que los radiólogos deben leer e informar primero. Estas soluciones suelen seleccionar imágenes adquiridas en busca de hallazgos que requieran intervención urgente (O’Connor & Bhalla, 2021). En el campo de la neurorradiología se ha estudiado más a fondo, el desplazamiento de tomografías computarizadas en las que se detectó una hemorragia intracraneal mediante una herramienta basada en IA a la parte superior de la lista de lectura redujo en varios minutos el tiempo que tardaron los radiólogos en revisar las imágenes (O'Neill et al., 2021). En otro estudio se observó que la priorización de la lista de trabajo disminuyó el tiempo hasta el diagnóstico (que incluye desde la adquisición de la imagen hasta su visualización por parte del radiólogo y el tiempo para leer e informar las exploraciones) de 512 a 19 minutos en el ámbito ambulatorio (Arbabshirani et al., 2018). Un estudio de simulación en el que se utilizó la priorización de listas de trabajo basada en IA a partir de la identificación de hallazgos urgentes en radiografías de tórax (como neumotórax, derrames pleurales y cuerpos extraños) también halló una reducción significativa del tiempo que se tardaba en ver y notificar las exploraciones, en comparación con la priorización estándar del flujo de trabajo (Baltruschat et al., 2021).

Interpretación de las imágenes

Actualmente, la mayoría de las soluciones basadas en IA disponibles comercialmente en el diagnóstico por la imagen se centran en algún aspecto del análisis e interpretación de las imágenes (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021). Esto incluye segmentar partes de la imagen (por ejemplo, para dirigir la cirugía o la radioterapia), llamar la atención de los radiólogos sobre zonas sospechosas, extraer biomarcadores de imagen (radiómica), comparar imágenes a lo largo del tiempo y llegar a diagnósticos de imagen específicos.


  • Entre el 29 % y el 38 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

La mayoría de las soluciones basadas en IA disponibles comercialmente y enfocadas en datos de neuroimagen se centran en la detección y caracterización de afecciones como el ictus isquémico, la hemorragia intracraneal, la demencia y la esclerosis múltiple (Olthof et al., 2020). Varios estudios han demostrado una excelente precisión de los métodos basados en IA para la detección y clasificación de hemorragia intraparenquimatosa, subaracnoidea y subdural en la TC de cabeza (Flanders et al., 2020; Ker et al., 2019; Kuo et al., 2019). Estudios posteriores demostraron que, en comparación con los radiólogos, algunas soluciones basadas en IA ofrecen unas tasas de falsos positivos y negativos sustancialmente inferiores (Ginat, 2020; Rao et al., 2021). En el ictus isquémico, las soluciones basadas en IA se han centrado en gran medida en la cuantificación del núcleo del infarto (Goebel et al., 2018; Maegerlein et al., 2019), la detección de la oclusión de grandes vasos (Matsoukas et al., 2022; Morey et al., 2021; Murray et al., 2020; Shlobin et al., 2022) y la predicción de los resultados del ictus (Bacchi et al., 2020; Nielsen et al., 2018; Y. Yu et al., 2020, 2021).

En la esclerosis múltiple, la IA se ha utilizado para identificar y segmentar lesiones (Nair et al., 2020; S.-H. Wang et al., 2018), lo que puede resultar especialmente útil en el seguimiento longitudinal de los pacientes. También se ha utilizado para extraer características de imagen asociadas con la enfermedad progresiva y la conversión de un síndrome clínicamente aislado a una esclerosis múltiple definitiva (Narayana et al., 2020; Yoo et al., 2019). Otras aplicaciones de la IA en neurorradiología incluyen la detección de aneurismas intracraneales (Faron et al., 2020; Nakao et al., 2018; Ueda et al., 2019) y la segmentación de tumores cerebrales (Kao et al., 2019; Mlynarski et al., 2019; Zhou et al., 2020), así como la predicción de marcadores genéticos de tumores cerebrales a partir de datos de imágenes (Choi et al., 2019; J. Zhao et al., 2020)


  • Entre el 24 % y el 31 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021)..

Al interpretar radiografías de tórax, los radiólogos detectaron hallazgos sustancialmente más críticos y urgentes cuando contaron con la ayuda de un algoritmo basado en aprendizaje profundo, y lo hicieron mucho más rápido que sin el algoritmo (Nam et al., 2021). Asimismo, también se ha hallado que los algoritmos de interpretación de imágenes basados en el aprendizaje profundo mejoran la sensibilidad de los residentes de radiología en la detección de hallazgos urgentes en radiografías de tórax, del 66 % al 73 % (E. J. Hwang, Nam, et al., 2019). Otro estudio que se centró en una gama más amplia de hallazgos en las radiografías de tórax también encontró que los radiólogos asistidos por un algoritmo basado en el aprendizaje profundo tenían una mayor precisión diagnóstica que los radiólogos que evaluaban las radiografías sin ayuda (Seah et al., 2021). Los usos de la IA en radiología de tórax también se extienden a imágenes transversales como la TC. Así, por ejemplo, se halló un algoritmo de aprendizaje profundo que detecta la embolia pulmonar en tomografías computarizadas, con una alta precisión (AUC = 0,85) (Huang, Kothari, et al., 2020). Además, un algoritmo de aprendizaje profundo obtuvo una precisión del 90 % en la detección de la disección aórtica en TC sin contraste, similar al rendimiento de los radiólogos (Hata et al., 2021).

Fuera del ámbito de urgencias, las soluciones basadas en IA se han probado y aplicado ampliamente en la detección sistemática de la tuberculosis en radiografías de tórax (E. J. Hwang, Park, et al., 2019; S. Hwang et al., 2016; Khan et al., 2020; Qin et al., 2019; WHO Operational Handbook on Tuberculosis Module 2: Screening – Systematic Screening for Tuberculosis Disease, s.f.). Asimismo, también han demostrado ser útiles en la detección sistemática del cáncer de pulmón, tanto en la detección de nódulos pulmonares en TC (Setio et al., 2017) como en radiografías de tórax (Li et al., 2020). También se han utilizado para clasificar si los nódulos son probablemente malignos o benignos (Ardila et al., 2019; Bonavita et al., 2020; Ciompi et al., 2017; B. Wu et al., 2018). Además, las soluciones basadas en la IA muestran un gran potencial en el diagnóstico de neumonía, enfermedad pulmonar obstructiva crónica y enfermedad pulmonar intersticial (F. Liu et al., 2021).


  • El 11 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

Hasta la fecha, numerosos algoritmos basados en inteligencia artificial para la obtención de imágenes de las mamas tienen como objetivo reducir la carga de trabajo de los radiólogos que interpretan las mamografías. Por ejemplo, en un estudio, el uso de algoritmos para seleccionar mamografías negativas se asoció a una reducción de casi una quinta parte en la carga de trabajo de los radiólogos (Yala et al., 2019). Asimismo, en otros estudios en los que se ha reemplazado a segundos lectores de mamografías por algoritmos basados en IA, se ha observado una disminución en los falsos positivos y falsos negativos, así como una reducción del 88 % en la carga de trabajo del segundo lector (McKinney et al., 2020).

También se ha descubierto que las soluciones basadas en IA para mamografías aumentan la precisión diagnóstica de los radiólogos (McKinney et al., 2020; Rodríguez-Ruiz et al., 2019; Watanabe et al., 2019) y se ha comprobado que algunas son muy precisas a la hora de detectar y clasificar de forma independiente las lesiones mamarias (Agnes et al., 2019; Al-Antari et al., 2020; Rodríguez-Ruiz et al., 2019).
A pesar de esto, una revisión sistemática reciente de 36 algoritmos basados en IA halló que estos estudios eran de mala calidad metodológica, y que todos los algoritmos eran menos precisos que el consenso de dos o más radiólogos (Freeman et al., 2021). No obstante, los algoritmos basados en IA han demostrado potencial para extraer características predictivas de cáncer de las mamografías, más allá de la densidad mamaria mamográfica (Arefan et al., 2020; Dembrower et al., 2020; Hinton et al., 2019). Más allá de la mamografía, se han desarrollado soluciones basadas en IA para detectar y clasificar lesiones mamarias mediante ecografías (Akkus et al., 2019; Park et al., 2019; G.-G. Wu et al., 2019) y RM (Herent et al., 2019).


  • El 11 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021)..

La radiología cardiaca siempre ha supuesto un reto especial debido a las dificultades inherentes a la adquisición de imágenes de un órgano en constante movimiento. Por ello, se ha beneficiado enormemente de los avances en la tecnología de la imagen y parece que también se beneficiará en gran medida de la IA (Sermesant et al., 2021). La mayoría de las aplicaciones del sistema cardiovascular basadas en IA utilizan datos de RM, TC o ultrasonidos (Weikert et al., 2021). Algunos ejemplos destacados son el cálculo automatizado de la fracción de eyección en la ecocardiografía, la cuantificación de la calcificación de las arterias coronarias en la TC cardíaca, la determinación del volumen del ventrículo derecho en la angiografía pulmonar por TC y la determinación del tamaño y el grosor de las cavidades cardíacas en la RM cardíaca (Medical AI Assessment, s.f., The Futurista médico, s.f.). Las soluciones basadas en inteligencia artificial para predecir la respuesta favorable de pacientes a intervenciones cardíacas, como la terapia de resincronización cardíaca, han demostrado ser muy prometedoras. Estos enfoques utilizan tanto imágenes médicas como parámetros clínicos para lograr resultados más precisos (Cikes et al., 2019; Hu et al., 2019). Los cambios en la resonancia magnética cardíaca que no son fácilmente visibles para los lectores humanos, pero que son potencialmente útiles para diferenciar diferentes tipos de miocardiopatías, también se pueden detectar utilizando IA a través del análisis de textura (Neisius et al., 2019; J. Wang et al., 2020) y otros enfoques radiómicos ( Mancio et al., 2022).


  • Entre el 7 % y el 11 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021)..

Las aplicaciones prometedoras de la IA en la evaluación de músculos, huesos y articulaciones abarcan áreas en las que los evaluadores humanos a menudo muestran poca fiabilidad entre evaluadores y dentro de un mismo evaluador. Ejemplos de estas aplicaciones son la determinación de la edad esquelética basada en radiografías óseas (Halabi et al., 2019; Thodberg et al., 2009) y la detección sistemática de la osteoporosis en radiografías (Kathirvelu et al., 2019; J.-S. Lee et al., 2019) y TC (Pan et al., 2020). Las soluciones basadas en IA también han demostrado ser prometedoras en la detección de fracturas en radiografías y TC (Lindsey et al., 2018; Olczak et al., 2017; Urakawa et al., 2019). Una revisión sistemática de soluciones basadas en IA para la detección de fracturas en diferentes partes del cuerpo reveló áreas bajo la curva (AUC) que variaban entre 0,94 y 1,00, junto con precisiones que oscilaban entre el 77 % y el 98 % (Langerhuizen et al., 2019). Las soluciones basadas en IA también han logrado precisiones similares a las de los radiólogos en la clasificación de la gravedad de los cambios degenerativos de la columna (Jamaludin et al., 2017) y las articulaciones de las extremidades (F. Liu et al., 2018; Thomas et al., 2020). . También se han desarrollado soluciones basadas en IA para determinar el origen de las metástasis esqueléticas (Lang et al., 2019) y la clasificación de tumores óseos primarios (Do et al., 2017).

Abdomen y pelvis

  • El 4 % de las aplicaciones basadas en IA disponibles comercialmente en radiología (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021)..

Gran parte de los esfuerzos en el uso de la IA en imágenes abdominales se han centrado hasta ahora en la segmentación automatizada de órganos como el hígado (Dou et al., 2017), el bazo (Moon et al., 2019), el páncreas (Oktay et al., 2018) y los riñones (Sharma et al., 2017). Asimismo, una revisión sistemática de 11 estudios que utilizan el aprendizaje profundo para la detección de masas hepáticas malignas ofreció una precisión de hasta el 97 % y una AUC de hasta 0,92 (Azer, 2019).

Otras aplicaciones de la IA en radiología abdominal incluyen la detección de la fibrosis hepática (He et al., 2019; Yasaka et al., 2018), la enfermedad del hígado graso, el contenido de hierro hepático, la detección de gas abdominal libre en TC, y la volumetría y segmentación automatizadas de la próstata (AI for Radiology, s.f).

Obstáculos para la implementación de la IA

A pesar del enorme potencial de la IA en el ámbito del diagnóstico por la imagen, su implementación y repercusión en la práctica clínica aún no se ha generalizado. La transición de la investigación al ámbito clínico se ve obstaculizada por múltiples problemas complejos e interrelacionados entre sí que, de manera directa o indirecta, reducen la probabilidad de adoptar soluciones basadas en IA. Uno de los principales obstáculos es la falta de confianza en estas soluciones por parte de los principales interesados, como los organismos reguladores, los profesionales de la salud y los pacientes (Cadario et al., 2021; Esmaeilzadeh, 2020; J. P. Richardson et al., 2021; Tucci et al., 2022).

Generalización del uso de la IA

Una de las principales dificultades radica en desarrollar soluciones basadas en inteligencia artificial que sigan funcionando adecuadamente en nuevos escenarios de la vida real. En una amplia revisión sistemática, casi la mitad de los algoritmos empleados en el diagnóstico por la imagen basados en la IA estudiados notificaron una disminución superior a 0,05 en el AUC cuando se probaron con datos nuevos. Yu et al., 2022). Esta falta de generalización puede tener efectos adversos en el rendimiento del modelo en la vida real.

Si una solución obtiene malos resultados al probarse con un conjunto de datos que tienen una distribución similar o idéntica a la del conjunto de datos de entrenamiento, se dice que carece de una generalización estrecha, a menudo, consecuencia de un sobreajuste (Eche et al., 2021). Las posibles soluciones para el sobreajuste consisten en utilizar conjuntos de datos de entrenamiento más grandes y reducir la complejidad del modelo. Si una solución obtiene malos resultados al probarse con un conjunto de datos que tienen una distribución diferente a la del conjunto de datos de entrenamiento (por ejemplo, una distribución diferente de las etnias de los pacientes), se dice que carece de una amplia generalización (Eche et al., 2021). Entre las soluciones para abordar esta falta de generalización amplia se incluyen las pruebas de estrés del modelo en conjuntos de datos con distribuciones diferentes a las del conjunto de datos de entrenamiento (Eche et al., 2021).

Es importante tener en cuenta que las soluciones de IA suelen desarrollarse en entornos con muchos recursos, como las grandes empresas tecnológicas y los centros médicos académicos de los países ricos. Sin embargo, es probable que los hallazgos y el rendimiento en estos contextos de altos recursos no se generalicen a contextos de menores recursos, como hospitales más pequeños, zonas rurales o países más pobres (Price y Nicholson, 2019), lo que complica aún más esta problemática.

Riesgo de sesgo

En las soluciones basadas en IA pueden surgir sesgos debidos a los datos o a factores humanos. Los primeros se producen cuando los datos utilizados para entrenar la solución de IA no representan adecuadamente a la población objetivo. Los conjuntos de datos pueden no ser representativos cuando son demasiado pequeños o se han recopilado de una manera que no representa a una determinada categoría de población. Las soluciones de IA entrenadas con datos no representativos perpetúan los sesgos y obtienen malos resultados en las categorías de población infrarrepresentadas o mal representadas en los datos de entrenamiento. La presencia de dichos sesgos se ha demostrado empíricamente en muchos estudios de diagnóstico por la imagen basados en la IA (Larrazábal et al., 2020; Seyyed-Kalantari et al., 2021).

Las soluciones basadas en inteligencia artificial pueden estar sujetas a decisiones subjetivas y, en ocasiones, a prejuicios implícitos o explícitos durante su desarrollo por parte de los seres humanos. Estos factores humanos incluyen cómo se seleccionan los datos de entrenamiento, cómo se etiquetan y cómo se toma la decisión de centrarse en el problema específico que la solución basada en IA pretende resolver (Norori et al., 2021). Existen algunas recomendaciones y herramientas para contribuir a minimizar el riesgo de sesgo en la investigación sobre IA (AIF360: A Comprehensive Set of Fairness Metrics for Datasets and Machine Learning Models, Explanations for These Metrics, and Algorithms to Mitigate Bias in Datasets and Models, s.f., IBM Watson Studio - Model Risk Management, s.f.; Silberg & Manyika, 2019).

Cantidad, calidad y variedad de datos

Problemas como el sesgo y la falta de generalización pueden mitigarse garantizando que los datos de entrenamiento sean de una cantidad, calidad y variedad suficientes. Sin embargo, esto se complica debido a que los pacientes suelen mostrar reticencia a compartir sus datos con fines comerciales (Aggarwal, Farag, et al., 2021; Ghafur et al., 2020; Trinidad et al., 2020). Además, los hospitales y las clínicas no suelen estar preparados para poner a disposición estos datos de una manera utilizable y segura, y la organización y etiquetado de los mismos requiere mucho tiempo y recursos.

Aunque existen múltiples conjuntos de datos que podrían utilizarse para diversos propósitos, el hecho de compartir datos entre empresas podría agilizar el proceso de recopilación y organización, así como aumentar la cantidad de datos disponibles para cada aplicación. Sin embargo, los desarrolladores suelen ser reacios a compartir datos entre sí, o incluso a revelar la fuente exacta de sus datos, para seguir siendo competitivos.

Protección de datos y privacidad

El desarrollo y la aplicación de soluciones basadas en la IA requieren que los pacientes estén explícitamente informados sobre el uso de sus datos para un fin concreto y por determinadas personas, y que den su consentimiento para ello. Estos datos también tienen que estar adecuadamente protegidos frente a filtraciones y usos indebidos. Si esto no se garantiza, se socava en gran medida la confianza de la población en las soluciones basadas en IA y dificulta su adopción. Si bien las regulaciones que rigen la privacidad de los datos de salud determinan que la recopilación de datos totalmente anonimizados no requiere el consentimiento explícito del paciente (Reglamento General de Protección de Datos(GDPR) – Texto Legal Oficial, 2016; Oficina de Derechos Civiles (OCR), 2012) y, en teoría, protege de un uso indebido de los datos, surge controversia en cuanto a si los datos utilizados en el diagnóstico por la imagen pueden o no ser completamente anonimizados (Lotan et al., 2020; Murdoch, 2021). También se debate si el consentimiento puede ser verdaderamente informado, considerando la complejidad de los datos que se adquieren y la multitud de posibles usos futuros de los mismos (Vayena y Blasimme, 2017).

Infraestructura de TI

Entre las unidades hospitalarias, la unidad de radiología ha sido pionera en la adopción de la digitalización. Es probable que las soluciones basadas en la IA que se centran en el procesamiento e interpretación de imágenes encuentren la infraestructura necesaria en la mayoría de las unidades de radiología, por ejemplo, para conectar equipos de imagen a computadoras para su análisis, y para archivar imágenes y otros resultados. Sin embargo, es probable que la mayoría de las unidades de radiología necesiten realizar mejoras significativas en su infraestructura para poder utilizar otras aplicaciones de IA, especialmente las que implican la integración de información de múltiples fuentes y producen resultados complejos. Además, es importante tener en cuenta que la distribución de las infraestructuras necesarias es muy desigual entre los países y dentro de ellos (Health Ethics & Governance, 2021).

En términos de potencia informática, las unidades de radiología tendrán que invertir recursos en el hardware y el personal necesarios para ejecutar estas soluciones basadas en IA u optar por soluciones basadas en la nube. El primero tiene un coste adicional, pero permite procesar los datos dentro de los límites de la red local del hospital o clínica. Las soluciones informáticas basadas en la nube (conocidas como «infraestructura como servicio» o «IaaS») suelen considerarse la opción menos segura y menos fiable, pero esto depende de varios factores y, por tanto, no siempre es cierto (Baccianella & Gough, s.f.). Existen directrices sobre los aspectos que hay que tener en cuenta a la hora de adquirir soluciones basadas en la nube en el sector sanitario (Seguridad en la nube para servicios sanitarios, 2021).

Falta de estandarización, interoperabilidad e integrabilidad

El problema de la infraestructura se complica aún más si se tiene en cuenta lo fragmentado que está actualmente el mercado del diagnóstico por la imagen basado en la IA (Alexander et al., 2020). Por tanto, es probable que en un futuro próximo, una sola unidad cuente con varias docenas de soluciones basadas en IA, procedentes de distintos proveedores funcionando simultáneamente. Disponer de una infraestructura independiente y autónoma (por ejemplo, una estación de trabajo o un servidor) para cada una de ellas sería increíblemente complicado y difícil de gestionar. Las soluciones sugeridas para ello incluyen «mercados» de soluciones de IA, similares a las tiendas de aplicaciones (Advanced AI Solutions for Radiology, n.d., Curated Marketplace, 2018, Imaging AI Marketplace - Overview, n.d., Sectra Amplifier Marketplace, 2021, The Nuance AI Marketplace for Diagnostic Imaging, n.d.), and development of an overarching vendor-neutral infrastructure (Leiner et al., 2021). Para implantar con éxito este tipo de soluciones, es necesaria una estrecha colaboración entre los desarrolladores de soluciones de IA, los proveedores de tratamiento de imágenes y las empresas de tecnologías de la información.


A menudo es imposible entender exactamente cómo las soluciones basadas en IA llegan a sus conclusiones, especialmente con enfoques complejos como el aprendizaje profundo. La falta de transparencia en el proceso de toma de decisiones para adquirir y aprobar soluciones basadas en inteligencia artificial dificulta la identificación de sesgos y complica la tarea de los médicos al explicar los resultados a sus pacientes. Además, determinar si una solución funciona correctamente o ha fallado se vuelve más desafiante (Char et al., 2018; Reddy et al., 2020; Vayena et al., 2018; Whittlestone et al., 2019). Algunos expertos sugieren que las técnicas que ayudan a los seres humanos a entender cómo los algoritmos basados en IA toman ciertas decisiones o predicciones (IA «interpretable» o «explicable») podrían ayudar a mitigar estos retos. Sin embargo, otros argumentan que las técnicas actuales no son suficientes para comprender las decisiones individuales de un algoritmo y advierten contra la confianza ciega en ellas para garantizar la seguridad y fiabilidad de los algoritmos (Ghassemi et al., 2021).


En los sistemas sanitarios, un marco de rendición de cuentas garantiza que el personal sanitario y las instituciones médicas puedan ser considerados responsables de los efectos adversos derivados de sus acciones. La cuestión de quién debe ser considerado responsable por los fallos de una solución basada en la IA es compleja. En el caso de los productos farmacéuticos, por ejemplo, la responsabilidad por los fallos inherentes al producto o a su uso suele recaer en el fabricante o en el prescriptor. Una diferencia clave es que los sistemas basados en IA evolucionan y aprenden continuamente, por lo que intrínsecamente funcionan de una manera independiente de lo que sus desarrolladores podrían haber previsto (Yeung, 2018). Para el usuario final, como el trabajador sanitario, la solución basada en IA puede ser opaca y, por tanto, no podrá saber cuándo la solución funciona mal o es imprecisa (Habli et al., 2020; Yeung, 2018).


A pesar de los avances significativos en su desarrollo durante los últimos años, los algoritmos de aprendizaje profundo siguen siendo sorprendentemente frágiles. Esto implica que cuando el algoritmo se encuentra con una situación significativamente diferente a la que enfrentó durante su entrenamiento, no puede contextualizar adecuadamente y, en muchos casos, produce resultados incoherentes o incorrectos. Esto ocurre porque, a diferencia de los seres humanos, la mayoría de los algoritmos aprenden a percibir las cosas dentro de los límites de ciertos supuestos, pero no consiguen generalizar fuera de ellos. Como ejemplo de cómo se puede abusar de esto con intenciones maliciosas, los cambios sutiles en las imágenes médicas, imperceptibles para los seres humanos, pueden provocar que los resultados de los algoritmos de clasificación de enfermedades sean inexactos (Finlayson et al., 2018). La falta de interpretabilidad de muchas soluciones basadas en la IA agrava este problema, ya que dificulta la resolución de problemas sobre cómo han llegado a una conclusión errónea.

Toma de decisiones sobre la adquisición

Hasta ahora, más de 100 productos basados en IA han obtenido la marca de conformidad europea (CE) o la autorización de la Administración de Alimentos y Medicamentos (FDA) de los EE. UU. Estos productos se pueden encontrar en bases de datos en línea continuamente actualizadas y con capacidad de búsqueda seleccionadas por la FDA (Center for Devices & Radiological Health, n.d.), el Colegio Estadounidense de Radiología (Assess-AI, s.f.), y otros (AI for Radiology, s.f., The Medical Futurist, n.d.; E. Wu et al., 2021). El creciente número de productos disponibles, la complejidad inherente a muchas de estas soluciones y el hecho de que muchas de las personas que suelen tomar las decisiones de compra en los hospitales no estén familiarizadas con la evaluación de este tipo de productos, hacen que sea importante pensar detenidamente a la hora de decidir qué producto adquirir. Tales decisiones deberán tomarse tras incorporar las aportaciones del personal sanitario, los profesionales de las tecnologías de la información (TI) y los profesionales de la gestión, las finanzas, la legislación y los recursos humanos de los hospitales.

Decidir si adquirir una solución basada en IA en radiología, así como cuál de las cada vez más numerosas soluciones disponibles en el mercado, incluye consideraciones de calidad, seguridad y económicas. En los últimos años, han surgido varias directrices para ayudar a los compradores potenciales a tomar estas decisiones (A Buyer's Guide to AI in Health and Care, 2020; Omoumi et al., 2021; Reddy et al., 2021), y es probable que estas directrices evolucionen en el futuro con las expectativas cambiantes de los clientes, los organismos reguladores y las partes interesadas que participan en las decisiones de reembolso.

En primer lugar, el comprador potencial debe tener claro cuál es el problema y si la IA es la solución adecuada o si existen alternativas más ventajosas. Si la IA es el enfoque adecuado, los compradores deben saber exactamente cuál es el alcance de la solución de un posible producto basado en IA, es decir, para qué problema concreto está diseñada la solución basada en IA y en qué circunstancias específicas. Esto incluye si la solución está destinada a la detección, el diagnóstico, el seguimiento, la recomendación de tratamiento u otra aplicación. También incluye a los usuarios previstos de la solución, y qué tipo de cualificaciones o formación específicas se espera que tengan para poder manejar la solución e interpretar sus resultados. Los compradores deben tener claro si la solución pretende sustituir determinadas tareas que normalmente realizaría el usuario final, actuar como doble evaluador, como mecanismo de triaje o para otras tareas como el control de calidad. Los compradores también deben saber si la solución pretende proporcionar información «nueva» (es decir, información que de otro modo no estaría disponible para el usuario sin la solución), mejorar el rendimiento de una tarea existente más allá del rendimiento de un ser humano o de otra solución no basada en la IA, o si pretende ahorrar tiempo u otros recursos.

Los compradores también deben tener acceso a información que les permita evaluar los beneficios potenciales de la solución de IA, y esto debe estar avalado por pruebas científicas publicadas sobre la eficacia y la rentabilidad de la solución. La forma de hacerlo dependerá en gran medida de la propia solución y del contexto en el que se prevea desplegarla, pero existen directrices al respecto (National Institute for Health and Care Excellence [NICE], s.f.). Algunas preguntas que cabría hacerse son: ¿Qué influencia tendrá la solución en la gestión de los pacientes?

¿Mejorará el rendimiento diagnóstico? ¿Ahorrará tiempo y dinero? ¿Afectará la calidad de vida de los pacientes? También debe quedar claro para el comprador quién exactamente se espera que se beneficie del uso de esta solución (¿radiólogos? ¿médicos? ¿pacientes? ¿El sistema sanitario o la sociedad en su conjunto?).

Como ocurre con cualquier intervención sanitaria, todas las soluciones basadas en la IA conllevan ciertos riesgos, que el comprador debe tener claros. Algunos de estos riesgos pueden tener consecuencias jurídicas, como la posibilidad de que se elabore un diagnóstico erróneo. Estos riesgos deben cuantificarse, y los posibles compradores deben disponer de un marco para afrontarlos, incluida la identificación de un marco de responsabilidad dentro de las organizaciones que utilizan estas aplicaciones. Los compradores también deben asegurarse de que entienden claramente los posibles efectos negativos en la formación de los radiólogos y la posible interrupción de los flujos de trabajo de los radiólogos asociados al uso de estas soluciones.

Los aspectos específicos del diseño de la solución de IA también son relevantes a la hora de decidir si adquirirla o no. Entre ellos se incluyen la solidez de la solución frente a las diferencias entre proveedores y parámetros de escaneado, las circunstancias en las que se entrenó el algoritmo (incluidos los posibles factores de confusión) y la forma en que se evaluó el rendimiento. También debe quedar claro para los compradores si se tuvieron en cuenta las posibles fuentes de sesgo durante el desarrollo y de qué manera. Dado que una característica fundamental de las soluciones basadas en IA es su capacidad para aprender continuamente a partir de nuevos datos, el comprador también debe tener claro si esta actualización se incorpora a la solución a lo largo del tiempo y, en caso afirmativo, cómo se hace, y si es necesaria o no una nueva aprobación reglamentaria con cada iteración. Esto incluye también si es necesario o no un reciclaje, por ejemplo, debido a cambios en los equipos de diagnóstico por la imagen de la institución del comprador.

Los principales argumentos de venta en los que se basan muchas soluciones basadas en IA son la facilidad de uso y la mejora de los flujos de trabajo. Por lo tanto, los posibles compradores deben examinar detenidamente cómo se van a integrar estas soluciones en los flujos de trabajo existentes, incluida la interoperabilidad con los sistemas de comunicación y almacenamiento de imágenes, y de historia clínica electrónica. El hecho de que la solución requiera o no hardware (por ejemplo, unidades de procesamiento gráfico) o software adicionales (por ejemplo, para la visualización de los resultados de la solución), o si puede integrarse fácilmente en la infraestructura informática existente de la organización del comprador, influye en el coste global de la solución para el comprador y, por lo tanto, también es un aspecto crítico a tener en cuenta. Además, el comprador debe conocer el grado de interacción manual necesario, tanto en circunstancias normales como para resolver problemas. Todos los usuarios potenciales de la solución de IA deben participar en el proceso de compra para garantizar que estén familiarizados con ella, que cumpla con los estándares éticos profesionales y se adapte a sus necesidades.

Desde el punto de vista normativo, el comprador debe tener claro si la solución cumple la normativa sobre productos sanitarios y protección de datos. ¿La solución ha sido aprobada en el país del comprador? Si es así, ¿bajo qué clasificación de riesgo? Los compradores también deben considerar la creación de mapas de flujo de datos que muestren cómo fluyen los datos en el funcionamiento de la solución basada en IA, incluyendo quién tiene acceso a los datos.

Por último, hay otros factores a tener en cuenta que no son necesariamente exclusivos de las soluciones basadas en IA y con los que los compradores podrían estar familiarizados por haber adquirido otros tipos de soluciones. Por ejemplo, el modelo de licencia de la solución, cómo se formará a los usuarios para que utilicen la solución, cómo se mantendrá la solución, cómo se tratarán los fallos de la solución, y si habrá costes adicionales cuando se amplíe la aplicación de la solución (por ejemplo, si se utiliza la solución para más equipos de tratamiento de imágenes o más usuarios). Esto permite al posible comprador anticipar los costes actuales y futuros de la adquisición de la solución.

Futuras tendencias


La IA ha demostrado ser prometedora para influir positivamente en prácticamente todas las facetas del trabajo de una unidad de radiología. Desde la programación y el protocolo de exploraciones de pacientes hasta la interpretación de imágenes y diagnósticos, la IA ha mostrado su valía. Sin embargo, a pesar de las investigaciones prometedoras sobre herramientas basadas en IA en radiología, su adopción en la práctica habitual aún no es generalizada. Esto se debe a una serie de cuestiones complejas y parcialmente relacionadas entre sí. Aunque existen posibles soluciones para muchos de estos desafíos, muchas de ellas requieren mayor perfeccionamiento y pruebas. Mientras tanto, están surgiendo directrices para ayudar a los posibles usuarios de soluciones basadas en IA en radiología a navegar por el creciente número de productos comerciales. Esto fomenta su adopción en situaciones de la vida real, lo que permite descubrir su verdadero potencial, así como identificar y abordar sus puntos débiles de forma segura y eficaz. A medida que se introduzcan estas mejoras graduales, es probable que estas herramientas evolucionen para manejar datos más variados, se integren en flujos de trabajo consolidados, sean más transparentes y, en última instancia, más útiles para aumentar la eficiencia y mejorar la atención al paciente.

    Artificial intelligence (AI) is playing a growing role in all our lives and has shown promise in addressing some of the greatest current and upcoming societal challenges we face. The healthcare industry, though notoriously complex and resistant to disruption, potentially has a lot to gain from the use of AI. With an established history of leading digital transformation in healthcare and an urgent need for improved efficiency, radiology has been at the forefront of harnessing AI’s potential.

    This book covers how and why AI can address challenges faced by radiology departments, provides an overview of the fundamental concepts related to AI, and describes some of the most promising use cases for AI in radiology. In addition, the major challenges associated with the adoption of AI into routine radiological practice are discussed. The book also covers some crucial points radiology departments should keep in mind when deciding on which AI-based solutions to purchase. Finally, it provides an outlook on what new and evolving aspects of AI in radiology to expect in the near future.

    The healthcare industry has experienced a number of trends over the past few decades that demand a change in the way certain things are done. These trends are particularly salient in radiology, where the diagnostic quality of imaging scans has improved dramatically while scan times have decreased. As a result, the amount and complexity of medical imaging data acquired have increased substantially over the past few decades (Smith-Bindman et al., 2019; Winder et al., 2021) and are expected to continue to increase (Tsao, 2020). This issue is complicated by a widespread global shortage of radiologists (AAMC Report Reinforces Mounting Physician Shortage, 2021, Clinical Radiology UK Workforce Census 2019 Report, 2019). Healthcare workers, including radiologists, have an increasing workload (Bruls & Kwee, 2020; Levin et al., 2017) that contributes to burnout and medical errors (Harry et al., 2021). Being an essential service provider to virtually all other hospital departments, staff shortages within radiology have significant effects that spread throughout the hospital and to society as a whole (England & Improvement, 2019; Sutherland et al., n.d.).

    With an ageing global population and a rising burden of chronic illnesses, these issues are expected to pose even more of a challenge to the healthcare industry in the future.

    AI-based medical imaging solutions have the potential to ameliorate these challenges for several reasons. They are particularly suited to handling large, complex datasets (Alzubaidi et al., 2021). Moreover, they are well suited to automate some of the tasks traditionally performed by radiologists and radiographers, potentially freeing up time and making workflows within radiology departments more efficient (Allen et al., 2021; Baltruschat et al., 2021; Kalra et al., 2020; O’Neill et al., 2021; van Leeuwen et al., 2021; Wong et al., 2019). AI is also capable of detecting complex patterns in data that humans cannot necessarily find or quantify (Dance, 2021; Korteling et al., 2021; Kühl et al., 2020).

    The term “artificial intelligence” refers to the use of computer systems to solve specific problems in a way that simulates human reasoning. One fundamental characteristic of AI is that, like humans, these systems can tailor their solutions to changing circumstances. Note that, while these systems are meant to mimic on a fundamental level how humans think, their capacity to do so (e.g. in terms of the amount of data they can handle at one time, the nature and amount of patterns they can find in the data, and the speed at which they do so) often exceeds that of humans.

    AI solutions come in the form of computer algorithms, which are pieces of computer code representing instructions to be followed to solve a specific problem. In its most fundamental form, the algorithm takes data as an input, performs some computation on that data, and returns an output.

    An AI algorithm can be explicitly programmed to solve a specific task, analogous to a step-by-step recipe for baking a cake. On the other hand, the algorithm can be programmed to look for patterns within the data in order to solve the problem. These types of algorithms are known as machine learning algorithms. Thus, all machine learning algorithms are AI, but not all AI is machine learning. The patterns in the data that the algorithm can be explicitly programmed to look for or that it can “discover” by itself are known as features. An important characteristic of machine learning is that such algorithms learn from the data itself, and their performance improves the more data they are given.

    One of the most common uses of machine learning is in classification - assigning a piece of data a particular label. For example, a machine learning algorithm might be used to tell if a photo (the input) shows a dog or a cat (the label). The algorithm can learn to do so in a supervised or unsupervised way.

    Supervised learning

    In supervised learning, the machine learning algorithm is given data that has been labelled with the ground truth, in this example, photos of dogs and cats that have been labelled as such. The process then goes through the following phases:

    1.Training phase: The algorithm learns the features associated with dogs and cats using the aforementioned data (training data).
    2.Test phase: The algorithm is then given a new set of photos (the test data), it labels them and the performance of the algorithm on that data is assessed.

    In some cases, there is a phase in between training and test, known as the validation phase. In this phase, the algorithm is given a new set of photos (not included in either the training or test data), its performance is assessed on this data, and the model is tweaked and retrained on the training data. This is repeated until some predefined performance-based criterion is reached, and the algorithm then enters the test phase.

    Unsupervised learning

    In unsupervised learning, the algorithm identifies features within the input data that allow it to assign classes to the individual data points without being told explicitly what those classes are or should be. Such algorithms can identify patterns or group data points together without human intervention and include clustering and dimensionality reduction algorithms. Not all machine learning algorithms perform classification. Some are used to predict a continuous metric (e.g. the temperature in four weeks’ time) instead of a discrete label (e.g. cats vs dogs). These are known as regression algorithms.

    Neural networks and deep learning

    A neural network is made up of an input layer and an output layer, which are themselves composed of nodes. In simple neural networks, features that are manually derived from a dataset are fed into the input layer, which performs some computations, the results of which are relayed to the output layer. In deep learning, multiple “hidden” layers exist between the input and output layers. Each node of the hidden layers performs calculations using certain weights and relays the output to the next hidden layer until the output layer is reached.

    In the beginning, random values are assigned to the weights and the accuracy of the algorithm is calculated. The values of the weights are then iteratively adjusted until a set of weight values that maximize accuracy is found. This iterative adjustment of the weight values is usually done by moving backwards from the output layer to the input layer, a technique called backpropagation. This entire process is done on the training data.

    Performance evaluation

    Understanding how the performance of AI algorithms is assessed is key to interpreting the AI literature. Several performance metrics exist for assessing how well a model performs certain tasks. No single metric is perfect, so a combination of several metrics provides a fuller picture of model performance.

    In regression, the most commonly used metrics include:

    • Mean absolute error (MAE): the average difference between the predicted values and the ground truth.
    • Root mean square error (RMSE): the differences between the predicted values and the ground truth are squared and then averaged over the sample. Then the square root of the average is taken. Unlike the MAE, the RMSE thus gives higher weight to larger differences.
    • R2: the proportion of the total variance in the ground truth explained by the variance in the predicted values. It ranges from 0 to 1.

    The following metrics are commonly used in classification tasks:

    • Accuracy: this is the proportion of all predictions that were predicted correctly. It ranges from 0 to 1.
    • Sensitivity: also known as the true positive rate (TPR) or recall, this is the proportion of true positives that were predicted correctly. It ranges from 0 to 1.
    • Specificity: Also known as the true negative rate (TNR), this is the proportion of true negatives that were predicted correctly. It ranges from 0 to 1.
    • Precision: also known as positive predictive value (PPV), this is the proportion of positive classifications that were predicted correctly. It ranges from 0 to 1.

    An inherent trade-off exists between sensitivity and specificity. The relevant importance of each, as well as their interpretation, highly depends on the specific research question and classification task.

    Importantly, although classification models are meant to reach a binary conclusion, they are inherently probability-based. This means that these models will output a probability that a data point belongs to one class or another. In order to reach a conclusion on the most likely class, a threshold is used. Metrics such as accuracy, sensitivity, specificity and precision refer to the performance of the algorithm based on a certain threshold. The area under the receiver operating characteristic curve (AUC) is a threshold-independent performance metric. The AUC can be interpreted as the probability that a random positive example is ranked higher by the algorithm than a random negative example.

    In image segmentation tasks, which are a type of classification task, the following metrics are commonly used:

    • Dice similarity coefficient: a measure of overlap between two sets (e.g. two images) that is calculated as two times the number of elements common to the sets divided by the sum of the number of elements in each set. It ranges from 0 (no overlap) to 1 (perfect overlap).
    • Hausdorff distance: a measure of how far two sets (e.g. two images) within a space are far from each other. It is basically the largest distance from one point in one set to the closest point in the other set.

    Internal and external validity

    Internally valid models perform well in their task on the data being used to train and validate them. The degree to which they are internally valid is assessed using the performance metrics outlined above and depends on the characteristics of the model itself and the quality of the data that the model was trained and validated on.

    Externally valid models perform well in their tasks on new data (Ramspek et al., 2021). The better the model performs on data that differs from the data the models were trained and validated on, the higher the external validity. In practice, this often requires the performance of the models to be tested on data from hospitals or geographical areas that were not part of the model’s training and validation datasets.

    Guidelines for evaluating AI research

    Several guidelines have been developed to assess the evidence behind AI-based interventions in healthcare (X. Liu et al., 2020; Mongan et al., 2020; Shelmerdine et al., 2021; Weikert et al., 2021). These provide a template for those doing AI research in healthcare and ensure that relevant information is reported transparently and comprehensively, but can also be used by other stakeholders to assess the quality of published research. This helps ensure that AI-based solutions with substantial potential or actual limitations, particularly those caused by poor reporting (Bozkurt et al., 2020; D. W. Kim et al., 2019; X. Liu et al., 2019; Nagendran et al., 2020; Yusuf et al., 2020), are not prematurely adopted (CONSORT-AI and SPIRIT-AI Steering Group, 2019). Guidelines have also been proposed for evaluating the trustworthiness of AI-based solutions in terms of transparency, confidentiality, security, and accountability (Buruk et al., 2020; Lekadir et al., 2021; Zicari et al., 2021).

    Over the past few years, AI has shown great potential in addressing a broad range of tasks within a medical imaging department, including many that happen before the patient is scanned. Implementations of AI to improve the efficiency of radiology workflows prior to patient scanning are sometimes referred to as “upstream AI” (Kapoor et al., 2020; M. L. Richardson et al., 2021).


    One promising upstream AI application is predicting whichpatients arelikelytomisstheirscanappointments. Missed appointments are associated with significantly increased workload and costs (Dantas et al., 2018). Using a Gradient Boosting approach, Nelson et al. predicted missed hospital magnetic resonance imaging (MRI) appointments in the United Kingdom’s National Health Service (NHS) with high accuracy (Nelson et al., 2019). Their simulations also suggested that acting on the predictions of this model by targeting patients who are likely to miss their appointments would potentially yield a net benefit of several pounds per appointment across a range of model thresholds and missed appointment rates (Nelson et al., 2019). Similar results were recently found in a study of a single hospital in Singapore. For the 6-month period following the deployment of the predictive tool they were able to significantly reduce the no show rate from 19.3 % tp 15.9 % which translated into a potential economic benefit of $180,000 (Chong et. al., 2020).

    Scheduling scans in a radiology department is a challenging endeavour because, although it is largely an administrative task, it depends heavily on medical information. The task of assigning patients to specific appointments thus often requires the input of someone with domain knowledge, which stipulates that either the person making the appointments must be a radiologist or radiology technician, or these people will have to provide input regularly. In either scenario, the process is somewhat inefficient and can potentially be streamlined using AI-based algorithms that check scan indications and contraindications and provide the people scheduling the scans with information about scan urgency (Letourneau-Guillon et al., 2020).


    Depending on hospital or clinic policy, the decision on what exact scan protocol a patient receives is usually made based on the information on the referring physician’s scan request and the judgement of the radiologist. This is often supplemented by direct communication between the referring physician and radiologist and the radiologist’s review of the patient’s medical information. This process improves patient care (Boland et al., 2014) but can be time-consuming and inefficient, particularly with modalities like MRI, where a large number of protocol permutations exist. In one study, protocolling alone accounted for about 6 % of the radiologist’s working time (Schemmel et al., 2016). Radiologists are also often interrupted by tasks such as protocolling when interpreting images, despite the fact that the latter is considered a radiologist’s primary responsibility (Balint et al., 2014; J.-P. J. Yu et al., 2014).

    Interpretation of the narrative text of the referring physician’s scan request has been attempted using natural language classifiers, the same technology used in chatbots and virtual assistants. Natural language classifiers based on deep learning have shown promise in assigning patients to either a contrast-enhanced or non-enhanced MRI protocol for musculoskeletal MRI, with an accuracy of 83 % (Trivedi et al., 2018) and 94 % (Y. H. Lee, 2018). Similar algorithms have shown an accuracy of 95 % for predicting the appropriate brain MRI protocol using a combination of up to 41 different MRI sequences (Brown & Marotta, 2018). Across a wide range of body regions, a deep-learning-based natural language classifier decided based on the narrative text of the scan requests whether to automatically assign a specific computed tomography (CT) or MRI protocol (which it did with 95 % accuracy) or, in more difficult cases, recommend a list of three most appropriate protocols to the radiologist (which it did with 92 % accuracy) (Kalra et al., 2020).

    AI has also been used to decide whether already protocolled scans need to be extended, a decision which has to be made in real-time while the patient is inside the scanner. One such example is in prostate MRI, where a decision on whether to administer a contrast agent is often made after the non-contrast sequences. Hötker et al. found that a convolutional neural network (CNN) assigned 78 % of patients to the appropriate prostate MRI protocol (Hötker et al., 2021). The sensitivity of the CNN for the need for contrast was 94.4 % with a specificity of 68.8 % and only 2 % of patients in their study would have had to be called back for a contrast- enhanced scan (Hötker et al., 2021).

    Image quality improvement and monitoring

    Many AI-based solutions that work in the background of radiology workflows to improve image quality have recently been established. These include solutions for monitoring image quality, reducing image artefacts, improving spatial resolution, and speeding up scans.

    Such solutions are entering the radiology mainstream, particularly for computed tomography, which for decades used established but artefact-prone methods for reconstructing interpretable images from the raw sensor data (Deák et al., 2013; Singh et al., 2010).

    These are gradually being replaced by deep-learning- based reconstruction methods, which improve image quality while maintaining low radiation doses (Akagi et al., 2019; H. Chen et al., 2017; Choe et al., 2019; Shan et al., 2019). This reconstruction is performed on supercomputers on the CT scanner itself or on the cloud. The balance between radiation dose and image quality can be adjusted on a protocol-specific basis to tailor scans to individual patients and clinical scenarios (McLeavy et al., 2021; Willemink & Noël, 2019). Such approaches have found particular use when scanning children, pregnant women, and obese patients as well as CT scans of the urinary tract and heart (McLeavy et al., 2021).

    AI-based solutions have also been used to speed up scans while maintaining diagnostic quality. Scan time reduction not only improves overall efficiency but also contributes to an overall better patient experience and compliance with imaging examination. A multi- centre study of spine MRI showed that a deep-learning- based image reconstruction algorithm that enhanced images using filtering and detail-preserving noise reduction reduced scan times by 40 % (Bash, Johnson, et al., 2021). For T1-weighted MRI scans of the brain, a similar algorithm that improves image sharpness and reduces image noise reduced scan times by 60 % while maintaining the accuracy of brain region volumetry compared to standard scans (Bash, Wang, et al., 2021).

    In routine radiological practice, images often contain artefacts that reduce their interpretability. These artefacts are the result of characteristics of the specific imaging modality or protocol used or factors intrinsic to the patient being scanned, such as the presence of foreign bodies or the patient moving during the scan. Particularly with MRI, imaging protocols that demand fast scanning often introduce certain artefacts to the reconstructed image. In one study, a deep-learning- based algorithm reduced banding artefacts associated with balanced steady-state free precession MRI sequences of the brain and knee (K. H. Kim & Park, 2017). For real-time imaging of the heart using MRI, another study found that the aliasing artefacts introduced by the data undersampling were reduced by using a deep-learning-based approach (Hauptmann et al., 2019). The presence of metallic foreign bodies such as dental, orthopaedic or vascular implants is a common patient-related factor causing image artefacts in both CT and MRI (Boas & Fleischmann, 2012; Hargreaves et al., 2011). Although not yet well established, several deep-learning-based approaches for reducing these artefacts have been investigated (Ghani & Clem Karl, 2019; Puvanasunthararajah et al., 2021; Zhang & Yu, 2018). Similar approaches are being tested for reducing motion-related artefacts in MRI (Tamada et al., 2020; B. Zhao et al., 2022).

    AI-based solutions for monitoring image quality potentially reduce the need to call patients back to repeat imaging examinations, which is a common problem (Schreiber-Zinaman & Rosenkrantz, 2017). A deep-learning-based algorithm that identifies the radiographic view acquired and extracts quality-related metrics from ankle radiographs was able to predict image quality with about 94 % accuracy (Mairhöfer et al., 2021). Another deep-learning-based approach was capable of predicting nondiagnostic liver MRI scans with a negative predictive value of between 86 % and 94 % (Esses et al., 2018). This real-time automated quality control potentially allows radiology technicians to rerun scans or run additional scans with greater diagnostic value.

    Scan reading prioritization

    With staff shortages and increasing scan numbers, radiologists face long reading lists. To optimize efficiency and patient care, AI-based solutions have been suggested as a way to prioritize which scans radiologists read and report first, usually by screening acquired images for findings that require urgent intervention (O’Connor & Bhalla, 2021). This has been most extensively studied in neuroradiology, where moving CT scans that were found to have intracranial haemorrhage by an AI-based tool to the top of the reading list reduced the time it took radiologists to view the scans by several minutes (O’Neill et al., 2021). Another study found that the time-to diagnosis (which includes the time from image acquisition to viewing by the radiologist and the time to read and report the scans) was reduced from 512 to 19 minutes in an outpatient setting when such a worklist prioritization was used (Arbabshirani et al., 2018). A simulation study using AI-based worklist prioritization based on identifying urgent findings on chest radiographs (such as pneumothorax, pleural effusions, and foreign bodies) also found a substantial reduction in the time it took to view and report the scans compared to standard workflow prioritization (Baltruschat et al., 2021).

    Image interpretation

    Currently, the majority of commercially available AI- based solutions in medical imaging focus on some aspect of analyzing and interpreting images (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021). This includes segmenting parts of the image (for surgical or radiation therapy targeting, for example), bringing suspicious areas to radiologists’ attention, extracting imaging biomarkers (radiomics), comparing images across time, and reaching specific imaging diagnoses.


    ¡ 29–38 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    Most commercially available AI-based solutions targeted at neuroimaging data aim to detect and characterize ischemic stroke, intracranial haemorrhage, dementia, and multiple sclerosis (Olthof et al., 2020). Several studies have shown excellent accuracy of AI- based methods for the detection and classification of intraparenchymal, subarachnoid, and subdural haemorrhage on head CT (Flanders et al., 2020; Ker et al., 2019; Kuo et al., 2019). Subsequent studies showed that, compared to radiologists, some AI-based solutions have substantially lower false positive and negative rates (Ginat, 2020; Rao et al., 2021). In ischemic stroke, AI-based solutions have largely focused on the quantification of the infarct core (Goebel et al., 2018; Maegerlein et al., 2019), the detection of large vessel occlusion (Matsoukas et al., 2022; Morey et al., 2021; Murray et al., 2020; Shlobin et al., 2022), and the prediction of stroke outcomes (Bacchi et al., 2020; Nielsen et al., 2018; Y. Yu et al., 2020, 2021).

    In multiple sclerosis, AI has been used to identify and segment lesions (Nair et al., 2020; S.-H. Wang et al., 2018), which can be particularly helpful for the longitudinal follow-up of patients. It has also been used to extract imaging features associated with progressive disease and conversion from clinically isolated syndrome to definite multiple sclerosis (Narayana et al., 2020; Yoo et al., 2019). Other applications of AI in neuroradiology include the detection of intracranial aneurysms (Faron et al., 2020; Nakao et al., 2018; Ueda et al., 2019) and the segmentation of brain tumours (Kao et al., 2019; Mlynarski et al., 2019; Zhou et al., 2020) as well as the prediction of brain tumour genetic markers from imaging data (Choi et al., 2019; J. Zhao et al., 2020)


    ¡ 24 %–31 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    When interpreting chest radiographs, radiologists detected substantially more critical and urgent findings when aided by a deep-learning-based algorithm, and did so much faster than without the algorithm (Nam et al., 2021). Deep-learning-based image interpretation algorithms have also been found to improve radiology residents’ sensitivity for detecting urgent findings on chest radiographs from 66 % to 73 % (E. J. Hwang, Nam, et al., 2019). Another study which focused on a broader range of findings on chest radiographs also found that radiologists aided by a deep-learning-based algorithm had higher diagnostic accuracy than radiologists who read the radiographs without assistance (Seah et al., 2021). The uses of AI in chest radiology also extend to cross-sectional imaging like CT. A deep learning algorithm was found to detect pulmonary embolism on CT scans with high accuracy (AUC = 0.85) (Huang, Kothari, et al., 2020). Moreover, a deep learning algorithm was 90 % accurate in detecting aortic dissection on non-contrast-enhanced CT scans, similar to the performance of radiologists (Hata et al., 2021).

    Outside the emergency setting, AI-based solutions have been widely tested and implemented for tuberculosis screening on chest radiographs (E. J. Hwang, Park, et al., 2019; S. Hwang et al., 2016; Khan et al., 2020; Qin et al., 2019; WHO Operational Handbook on Tuberculosis Module 2: Screening – Systematic Screening for Tuberculosis Disease, n.d.). In addition, they have been useful for lung cancer screening both in terms of detecting lung nodules on CT (Setio et al., 2017) and chest radiographs (Li et al., 2020) and by classifying whether nodules are likely to be malignant or benign (Ardila et al., 2019; Bonavita et al., 2020; Ciompi et al., 2017; B. Wu et al., 2018). AI-based solutions also show great promise for the diagnosis of pneumonia, chronic obstructive pulmonary disease, and interstitial lung disease (F. Liu et al., 2021).


    ¡ 11 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    So far, many of the AI-based algorithms targeting breast imaging aim to reduce the workload of radiologists reading mammograms. Ways to do this have included using AI-based algorithms to triage out negative mammograms, which in one study was associated with a reduction in radiologists’ workload by almost one-fifth (Yala et al., 2019). Other studies that have replaced second readers of mammograms with AI- based algorithms have shown that this leads to fewer false positives and false negatives as well as reduces the workload of the second reader by 88 % (McKinney et al., 2020).

    AI-based solutions for mammography have also been found to increase the diagnostic accuracy of radiologists (McKinney et al., 2020; Rodríguez-Ruiz et al., 2019; Watanabe et al., 2019) and some have been found to be highly accurate in independently detecting and classifying breast lesions (Agnes et al., 2019; Al- Antari et al., 2020; Rodriguez-Ruiz et al., 2019).
    Despite this, a recent systematic review of 36 AI- based algorithms found that these studies were of poor methodological quality and that all algorithms were less accurate than the consensus of two or more radiologists (Freeman et al., 2021). AI-based algorithms have nonetheless shown potential for extracting cancer-predictive features from mammograms beyond mammographic breast density (Arefan et al., 2020; Dembrower et al., 2020; Hinton et al., 2019). Beyond mammography, AI-based solutions have been developed for detecting and classifying breast lesions on ultrasound (Akkus et al., 2019; Park et al., 2019; G.- G. Wu et al., 2019) and MRI (Herent et al., 2019).


    ¡ 11 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    Cardiac radiology has always been particularly challenging because of the difficulties inherent in acquiring images of a constantly moving organ. Because of this, it has benefited immensely from advances in imaging technology and seems set to benefit greatly from AI as well (Sermesant et al., 2021). Most of the AI-based applications of the cardiovascular system use MRI, CT or ultrasound data (Weikert et al., 2021). Prominent examples include the automated calculation of ejection fraction on echocardiography, quantification of coronary artery calcification on cardiac CT, determination of right ventricular volume on CT pulmonary angiography, and determination of heart chamber size and thickness on cardiac MRI (Medical AI Evaluation, n.d., The Medical Futurist, n.d.). AI-based solutions for the prediction of patients likely to respond favourably to cardiac interventions, such as cardiac resynchronization therapy, based on imaging and clinical parameters have also shown great promise (Cikes et al., 2019; Hu et al., 2019). Changes in cardiac MRI not readily visible to human readers but potentially useful for differentiating different types of cardiomyopathies can also be detected using AI through texture analysis (Neisius et al., 2019; J. Wang et al., 2020) and other radiomic approaches (Mancio et al., 2022).


    ¡ 7–11 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    Promising applications of AI in the assessment of muscles, bones and joints include applications where human readers generally show poor between- and within-rater reliability, such as the determination of skeletal age based on bone radiographs (Halabi et al., 2019; Thodberg et al., 2009) and screening for osteoporosis on radiographs (Kathirvelu et al., 2019; J.-S. Lee et al., 2019) and CT (Pan et al., 2020). AI- based solutions have also shown promise for detecting fractures on radiographs and CT (Lindsey et al., 2018; Olczak et al., 2017; Urakawa et al., 2019). One systematic review of AI-based solutions for fracture detection in several different body parts showed AUCs ranging from 0.94 to 1.00 and accuracies of 77 % to 98 % (Langerhuizen et al., 2019). AI-based solutions have also achieved accuracies similar to radiologists for classification of the severity of degenerative changes of the spine (Jamaludin et al., 2017) and extremity joints (F. Liu et al., 2018; Thomas et al., 2020). AI-based solutions have also been developed to determine the origin of skeletal metastases (Lang et al., 2019) and the classification of primary bone tumours (Do et al., 2017).

    Abdomen and pelvis

    ¡ 4 % of commercially available AI-based applications in radiology (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021).

    Much of the efforts in using AI in abdominal imaging have thus far concentrated on the automated segmentation of organs such as the liver (Dou et al., 2017), spleen (Moon et al., 2019), pancreas (Oktay et al., 2018), and kidneys (Sharma et al., 2017). In addition, a systematic review of 11 studies using deep learning for the detection of malignant liver masses showed accuracies of up to 97 % and AUCs of up to 0.92 (Azer, 2019).

    Other applications of AI in abdominal radiology include the detection of liver fibrosis (He et al., 2019; Yasaka et al., 2018), fatty liver disease, hepatic iron content, the detection of free abdominal gas on CT, and automated volumetry and segmentation of the prostate (AI for Radiology, n.d.).

    Despite the great potential of AI in medical imaging, it has yet to find widespread implementation and impact in routine clinical practice. This research-to- clinic translation is being hindered by several complex and interrelated issues that directly or indirectly lower the likelihood of AI-based solutions being adopted. One major way they do so is by creating a lack of trust in AI- based solutions by key stakeholders such as regulators, healthcare professionals and patients (Cadario et al., 2021; Esmaeilzadeh, 2020; J. P. Richardson et al., 2021; Tucci et al., 2022).


    One major challenge is to develop AI-based solutions that continue to perform well in new, real-world scenarios. In a large systematic review, almost half of the studied AI-based medical imaging algorithms reported a greater than 0.05 decrease in the AUC when tested on new data (A. C. Yu et al., 2022). This lack of generalizability can lead to adverse effects on how well the model performs in a real-world scenario.

    If a solution performs poorly when tested on a dataset with a similar or identical distribution to the training dataset, it is said to lack narrow generalizability and is often a consequence of overfitting (Eche et al., 2021). Potential solutions for overfitting are using larger training datasets and reducing the model’s complexity. If a solution performs poorly when tested on a dataset with a different distribution to the training dataset (e.g. a different distribution of patient ethnicities), it is said to lack broad generalizability (Eche et al., 2021). Solutions to poor broad generalizability include stress-testing the model on datasets with different distributions from the training dataset (Eche et al., 2021).

    AI solutions are often developed in a high-resource environment such as large technology companies and academic medical centres in wealthy countries. It is likely that findings and performance in these high-resource contexts will fail to generalize to lower- resource contexts such as smaller hospitals, rural areas or poorer countries (Price & Nicholson, 2019), which complicates the issue further.

    Risk of bias

    Biases can arise in AI-based solutions due to data or human factors. The former occurs when the data used to train the AI solution does not adequately represent the target population. Datasets can be unrepresentative when they are too small or have been collected in a way that misrepresents a certain population category. AI solutions trained on unrepresentative data perpetuate biases and perform poorly in the population categories underrepresented or misrepresented in the training data. The presence of such biases has been empirically shown in many AI-based medical imaging studies (Larrazabal et al., 2020; Seyyed-Kalantari et al., 2021).

    AI-based solutions are prone to several subjective and sometimes implicitly or explicitly prejudiced decisions during their development by humans. These human factors include how the training data is selected, how it is labelled, and how the decision is made to focus on the specific problem the AI-based solution intends to solve (Norori et al., 2021). Some recommendations and tools are available to help minimize the risk of bias in AI research (AIF360: A Comprehensive Set of Fairness Metrics for Datasets and Machine Learning Models, Explanations for These Metrics, and Algorithms to Mitigate Bias in Datasets and Models, n.d., IBM Watson Studio - Model Risk Management, n.d.; Silberg & Manyika, 2019).

    Data quantity, quality and variety

    Problems such as bias and lack of generalizability can be mitigated by ensuring that training data is of sufficient quantity, quality and variety. However, this is difficult to do because patients are often reluctant to share their data for commercial purposes (Aggarwal, Farag, et al., 2021; Ghafur et al., 2020; Trinidad et al., 2020), hospitals and clinics are usually not equipped to make this data available in a useable and secure manner, and organizing and labelling the data is time- consuming and expensive.

    Many datasets can be used for a number of different purposes, and sharing data between companies can help make the process of data collection and organization more efficient, as well as increase the amount of data available for each application. However, developers are often reluctant to share data with each other, or even reveal the exact source of their data, to stay competitive.

    Data protection and privacy

    The development and implementation of AI-based solutions require that patients are explicitly informed about, and give their consent to, the use of their data for a particular purpose and by certain people. This data also has to be adequately protected from data breaches and misuse. Failure to ensure this greatly undermines the public’s trust in AI-based solutions and hinders their adoption. While regulations governing health data privacy state that the collection of fully anonymized data does not require explicit patient consent (General Data Protection Regulation (GDPR) – Official Legal Text, 2016; Office for Civil Rights (OCR), 2012) and in theory protects from the data being misused, whether or not imaging data can be fully anonymized is controversial (Lotan et al., 2020; Murdoch, 2021). Whether consent can be truly informed considering the complexity of the data being acquired, and the resulting myriad of potential future uses of the data, is also disputed (Vayena & Blasimme, 2017).

    IT infrastructure

    Among hospital departments, radiology has always been at the forefront ofdigitalization. AI-based solutions that focus on image processing and interpretation are likely to find the prerequisite infrastructure in most radiology departments, for example for linking imaging equipment to computers for analysis and for archiving images and other outputs. However, most radiology departments are likely to require significant infrastructure upgrades for other applications of AI, particularly those requiring the integration of information from multiple sources and having complex outputs. Moreover, it is important to keep in mind that the distribution of necessary infrastructure is highly unequal across and within countries (Health Ethics & Governance, 2021).

    In terms of computing power, radiology departments will either have to invest resources into the hardware and personnel necessary to run these AI-based solutions or opt for cloud-based solutions. The former comes with an extra cost but allows data processing within the confines of the hospital or clinic’s local network. Cloud-based solutions for computing (known as “infrastructure as a service” or “IaaS”) are often considered the less secure and less trustworthy option, but this depends on a number of factors and is thus not always true (Baccianella & Gough, n.d.). Guidelines on what to consider when procuring cloud-based solutions in healthcare are available (Cloud Security for Healthcare Services, 2021).

    Lack of standardization, interoperability, and integrability

    The problem of infrastructure becomes even more complicated when considering how fragmented the AI medical imaging market currently is (Alexander et al., 2020). It is therefore likely that in the near future a single department will have several dozen AI-based solutions from different vendors running simultaneously. Having a separate self-contained infrastructure (e.g. a workstation or server) for each of these would be incredibly complicated and difficult to manage. Suggested solutions for this have included AI solution “marketplaces”, similar to app stores (Advanced AI Solutions for Radiology, n.d., Curated Marketplace, 2018, Imaging AI Marketplace - Overview, n.d., Sectra Amplifier Marketplace, 2021, The Nuance AI Marketplace for Diagnostic Imaging, n.d.), and development of an overarching vendor-neutral infrastructure (Leiner et al., 2021). The successful implementation of such solutions requires close partnerships between AI solution developers, imaging vendors and information technology companies.


    It is often impossible to understand exactly how AI- based solutions come to their conclusions, particularly with complex approaches like deep learning. This reduces how transparent the decision-making process for procuring and approving these solutions can be, makes the identification of biases difficult, and makes it harder for clinicians to explain the outputs of these solutions to their patients and to determine whether a solution is working properly or has malfunctioned (Char et al., 2018; Reddy et al., 2020; Vayena et al., 2018; Whittlestone et al., 2019). Some have suggested that techniques that help humans understand how AI- based algorithms made certain decisions or predictions (“interpretable” or “explainable” AI) might help mitigate these challenges. However, others have argued that currently available techniques are unsuitable for understanding individual decisions of an algorithm and have warned against relying on them for ensuring that algorithms work in a safe and reliable way (Ghassemi et al., 2021).


    In healthcare systems, a framework of accountability ensures that healthcare workers and medical institutions can be held responsible for adverse effects resulting from their actions. The question of who should be held accountable for the failures of an AI- based solution is complicated. For pharmaceuticals, for example, the accountability for inherent failures in the product or its use often lies with either the manufacturer or the prescriber. One key difference is that AI-based systems are continuously evolving and learning, and so inherently work in a way that is independent of what their developers could have foreseen (Yeung, 2018). To the end-user such as the healthcare worker, the AI- based solution may be opaque and so they may not be able to tell when the solution is malfunctioning or inaccurate (Habli et al., 2020; Yeung, 2018).


    Despite substantial progress in their development over the past few years, deep learning algorithms are still surprising brittle. This means that, when the algorithm faces a scenario that differs substantially from what it faced during training, it cannot contextualize and often produces nonsensical or inaccurate results. This happens because, unlike humans, most algorithms learn to perceive things within the confines of certain assumptions, but fail to generalize outside these assumptions. As an example of how this can be abused with malicious intent, subtle changes to medical images, imperceptible by humans, can render the results of disease-classifying algorithms inaccurate (Finlayson et al., 2018). The lack of interpretability of many AI-based solutions compounds this problem because it makes it difficult to troubleshoot how they reached the wrong conclusion.

    So far, more than 100 AI-based products have gained conformité européenne (CE) marking or Food and Drug Adminstration (FDA) clearance. These products can be found in continuously updated and searchable online databases curated by the FDA (Center for Devices & Radiological Health, n.d.), the American College of Radiology (Assess-AI, n.d.), and others (AI for Radiology, n.d., The Medical Futurist, n.d.; E. Wu et al., 2021). The increasing number of available products, the inherent complexity of many of these solutions, and the fact that many people who usually make purchasing decisions in hospitals are not familiar with evaluating such products make it important to think carefully when deciding on which product to purchase. Such decisions will need to be made after incorporating input from healthcare workers, information technology (IT) professionals, as well as management, finance, legal, and human resources professionals within hospitals.

    Deciding on whether to purchase an AI-based solution in radiology, as well as which of the increasing number of commercially available solutions to purchase, includes considerations of quality, safety, and finances. Over the past few years, several guidelines have emerged to help potential buyers make these decisions (A Buyer’s Guide to AI in Health and Care, 2020; Omoumi et al., 2021; Reddy et al., 2021), and these guidelines are likely to evolve in the future with changing expectations from customers, regulatory bodies, and stakeholders involved in reimbursement decisions.

    First of all, it has to be clear to the potential buyer what the problem is and whether AI is the appropriate approach to this solution, or whether alternatives exist that are more advantageous on balance. If AI is the appropriate approach, buyers should know exactly what a potential AI-based product’s scope of the solution is - i.e. what specific problem the AI-based solution is designed to solve and in what specific circumstances. This includes whether the solution is intended for screening, diagnosis, monitoring, treatment recommendation or another application. It also includes the intended users of the solution and what kind of specific qualifications or training they are expected to have in order to be able to operate the solution and interpret its outputs. It needs to be clear to buyers whether the solution is intended to replace certain tasks that would normally be performed by the end-user, act as a double-reader, as a triaging mechanism, or for other tasks like quality control. Buyers should also understand whether the solution is intended to provide “new” information (i.e. information that would otherwise be unavailable to the user without the solution), improve the performance of an existing task beyond a human’s or other non-AI-based solution’s performance or if it is intended to save time or other resources.

    Buyers should also have access to information that allows them to assess the potential benefits of the AI solution, and this should be backed up by published scientific evidence for the efficacy and cost-efficiency of the solution. How this is done will depend highly on the solution itself and the context in which it is expected to be deployed, but guidelines for this are available (National Institute for Health and Care Excellence (NICE), n.d.). Some questions to ask here would be: How much of an influence will the solution have on patient management? Will it improve diagnostic performance? Will it save time and money? Will it affect patients’ quality of life? It should also be clear to the buyer who exactly is expected to benefit from the use of this solution (Radiologists? Clinicians? Patients? The healthcare system or society as a whole?).

    As with any healthcare intervention, all AI-based solutions come with potential risks, and these should be made clear to the buyer. Some of these risks might have legal consequences, such as the potential for misdiagnosis. These risks should be quantified, and potential buyers should have a framework for dealing with them, including identifying a framework for accountability within the organizations implementing these solutions. Buyers should also ensure they clearly understand the potential negative effects on radiologists’ training and the potential disruption to radiologists’ workflows associated with the use of these solutions.

    Specifics of the AI solution’s design are also relevant to the decision on whether or not to purchase it. These include how robust the solution is to differences between vendors and scanning parameters, the circumstances under which the algorithm was trained (including potential confounding factors), and the way that performance was assessed. It should also be clear to buyers if and how potential sources of bias were accounted for during development. Because a core characteristic of AI-based solutions is their ability to continuously learn from new data, whether and how exactly this retraining is incorporated into the solution with time should also be clear to the buyer, including whether or not new regulatory approval is needed with each iteration. This also includes whether or not retraining is required, for example, due to changes in imaging equipment at the buyer’s institution.

    The main selling points of many AI-based solutions are ease-of-use and improved workflows. Therefore, potential buyers should carefully scrutinize how these solutions are to be integrated into existing workflows, including inter-operability with PACS and electronic medical record systems. Whether or not the solution requires extra hardware (e.g. graphical processing units) or software (e.g. for visualization of the solution’s outputs), or if it can readily be integrated into the existing information technology infrastructure of the buyer’s organization influences the overall cost of the solution for the buyer and is therefore also a critical consideration. In addition, the degree of manual interaction required, both under normal circumstances and for troubleshooting, should be known to the buyer. All potential users of the AI solution should be involved in the purchasing process to ensure that they are familiar with it and that it meets their professional ethical standards and suits their needs.

    From a regulatory perspective, it should be clear to the buyer whether the solution complies with medical device and data protection regulations. Has the solution been approved in the buyer’s country? If so, under which risk classification? Buyers should also consider creating data flow maps that display how the data flows in the operation of the AI-based solution, including who has access to the data.

    Finally, there are other factors to consider which are not necessarily unique to AI-based solutions and which buyers might be familiar with from purchasing other types of solutions. This includes the licensing model of the solution, how users are to be trained on using the solution, how the solution is maintained, how failures in the solution are dealt with, and whether additional costs are to be expected when scaling up the solution’s implementation (e.g. using the solution for more imaging equipment or more users). This allows the potential buyer to anticipate the current and future costs of purchasing the solution.

    The past decade of increasing interest and progress in AI-based solutions for medical imaging has set the stage for a number of trends that are likely to appear or intensify in the near future.

    Firstly, there is an increasing sentiment that, although AI holds a great deal of promise for interpretive applications (such as the detection of pathology), non-interpretive AI-based solutions might hold the most potential in terms of instilling efficiency into radiology workflows and improving patient experiences. This trend towards involving AI earlier in the patient management process is likely to extend to AI increasingly acting as a clinical decision support system to guide when and which imaging scans are performed.

    For this to happen, AI needs to be integrated into existing clinical information systems, and the specific algorithms used need to be able to handle more varied data. This will likely pave the way for the development of algorithms that are capable of integrating demographic, clinical, and laboratory patient data to make recommendations about patient management (Huang, Pareek, et al., 2020; Rockenbach, 2021). The previously mentioned natural language processing algorithms that have been used to interpret scan requests may be useful candidates for this.

    In addition, we are likely to see AI algorithms that can interpret multiple different types of imaging data from the same patient. Currently, less than 5 % of commercially available AI-based solutions in medical imaging work with more than one imaging modality (Rezazade Mehrizi et al., 2021; van Leeuwen et al., 2021) despite the fact that the typical patient in a hospital receives multiple imaging scans during their stay (Shinagare et al., 2014). With this, it is also likely that more AI-based solutions will be developed that target hitherto neglected modalities such as nuclear imaging techniques and ultrasound.

    The current market for AI-based solutions in radiology is spread across a relatively large number of companies (Alexander et al., 2020). Potential users are likely to expect a streamlined integration of these products in their workflows, which can be challenging in such a fragmented market. Improved integration can be achieved in several different ways, including with vendor-neutral marketplaces or by the gradual consolidation of providers of AI-based solutions.

    With the expanding use of AI, the issue of trust between AI developers, healthcare professionals, regulators, and patients will become more relevant. It is therefore likely that efforts will intensify to take steps towards strengthening that trust. This will potentially include raising the expected standards of evidence for AI- based solutions (Aggarwal, Sounderajah, et al., 2021; X. Liu et al., 2019; van Leeuwen et al., 2021; Yusuf et al., 2020), making them more transparent through the use and improvement of interpretable AI techniques (Holzinger et al., 2017; Reyes et al., 2020; “Towards Trustable Machine Learning,” 2018), and enhancing techniques for maintaining patient data privacy (G. Kaissis et al., 2021; G. A. Kaissis et al., 2020).

    Furthermore, while most existing regulations stipulate that AI-based algorithms cannot be modified after regulatory approval, this is likely to change in the future. The potential for these algorithms to learn from data acquired after approval and adapt to changing circumstances is a major advantage of AI. Still, frameworks for doing so have thus far been lacking in the healthcare sector. However, promising ideas have recently emerged, including adapting existing hospital quality assurance and improvement frameworks to monitor AI-based algorithms’ performance and the data they are trained on and update the algorithms accordingly (Feng et al., 2022). This will likely require the development of multidisciplinary teams within hospitals consisting of clinicians, IT professionals, and biostatisticians who closely collaborate with model developers and regulators (Feng et al., 2022).

    While the obstacles discussed in previous sections might slow down the adoption of AI in radiology somewhat, the fear of AI potentially replacing radiologists is unlikely to be one of them. A recent survey from Europe showed that most radiologists did not perceive a reduction in their clinical workload after adopting AI-based solutions (European Society of Radiology (ESR), 2022), likely because, at the same time, demand for radiologists’ services has been continuously rising. Studies from around the world have shown that radiology professionals, particularly those with AI exposure and experience, are generally optimistic about the role of AI in their practice (Y. Chen et al., 2021; Huisman et al., 2021; Ooi et al., 2021; Santomartino & Yi, 2022; Scott et al., 2021).

    AI has shown promise in positively impacting virtually every facet of a radiology department’s work - from scheduling and protocolling patient scans to interpreting images and reaching diagnoses. Promising research on AI-based tools in radiology has not yet been widely translated to adoption in routine practice, however, because of a number of complex, partially intertwined issues. Potential solutions exist for many of these challenges, but many of these solutions require further refinement and testing. In the meantime, guidelines are emerging to help potential users of AI-based solutions in radiology navigate the increasing number of commercial products. This encourages their adoption in real-world scenarios, thus allowing their true potential to be uncovered, as well as their weaknesses to be identified and addressed in a safe and effective way. As these incremental improvements are made, these tools will likely evolve to handle more varied data, become integrated into consolidated workflows, become more transparent, and ultimately more useful for increasing efficiency and improving patient care.

