jueves, 2 de julio de 2026

ECO.91 IA ¿MEJORARÁ LA PRÁCTICA DE LA MEDICINA?

IA  ¿Mejorará la práctica de la medicina?, por Juan Miguel Ortiz, Doctor en Medicina

(continuación)

 

Las últimas noticias indican un incremento importante en la utilización de la IA por los médicos. En Estados Unidos, una encuesta señala que la proporción de profesionales que dicen emplear IA ha pasado del 38% en 2023 al 81% en la actualidad. La emplean, sobre todo, para ayudar en la documentación clínica y para buscar información sobre investigaciones publicadas. Es decir, en tareas que podríamos denominar “de oficina”.

En principio parece poco, algo así como la conversión de potentes ordenadores en simples máquinas de escribir, que es lo que ha sucedido desde la aparición de los procesadores de texto, para máquinas que multiplican por mucho la potencia de cálculo que tenía, hace 50 años, el propio Centro de Cálculo de la Universidad de Madrid.

Los médicos explican las ventajas para sus pacientes de disponer de IA en estas tareas y lo esencial parece ser que les permite dedicar más tiempo a su relación con los pacientes, al disminuir la carga burocrática que, frecuentemente, les resulta exasperante. Por ejemplo, redactar un informe para justificar un buen control de su enfermedad en un diabético que lo precisa para renovar el carnet de conducir, se puede hacer con un par de pulsaciones en el teclado y dedicar más tiempo, a individualizar el tratamiento de esa persona.

Pero siendo esto importante, el núcleo de la cuestión está en saber si la IA mejorará la capacidad del médico que la utiliza en el proceso de diagnóstico y tratamiento.

Por eso es importante una investigación que se plantea dar respuesta a esta pregunta en lugar de comprobar si la IA llega o no a un diagnóstico cierto, después de la sorpresa que causó comprobar que tenían mejores resultados en los exámenes que los estudiantes de medicina.

 

Empezando por el final copio el primer párrafo de los autores en el capítulo de Discusión de su artículo:

Este ensayo clínico aleatorizado reveló que el uso por parte de los médicos de un chatbot LLM disponible comercialmente no mejoró el razonamiento diagnóstico en casos clínicos complejos, a pesar de que el LLM por sí solo superó significativamente a los médicos participantes.1)

 

¿Cómo llegaron a esta conclusión?

Los detalles están en el artículo original que se publicó en Red JAMA abierta: Large Language Model Influence on Diagnostic Reasoning A Randomized Clinical Trial 2) y que se puede leer en español.

 

En resumen, los autores hicieron lo siguiente:

Reclutaron médicos, voluntarios, pagados, 26 adjuntos y 24 residentes, con una mediana de 3 años de práctica médica en medicina general o medicina interna. Esto se hizo en el año 2023 lo que al ritmo que van la cosas es un dato importante.

Los autores diseñaron un experimento, basado en casos reales, no publicados, que se les presentaban a los participantes y a la IA.

A la mitad de los participantes se les inducía a utilizar la IA para resolver los casos, además de los procedimientos que utilizaran habitualmente. A la otra mitad se les dijo que utilizasen sus métodos habituales pero que no empleasen la IA.  Tenían 1 hora para resolver los casos.

La puntuación (0 mal, 1 parcialmente bien, 2 totalmente bien) no se limitaba a si se obtenía o no un diagnóstico exacto, sino que se valoraron asimismo:

- diagnósticos plausibles

- hallazgos a favor de éstos

- hallazgos en contra

- pasos complementarios para confirmar el diagnóstico.

 

Una tabla nos situará mejor en el contexto del experimento.

Después de indicar que es lo que cuenta el paciente, los datos de su exploración clínica y los resultados de los análisis realizados hasta el momento (la historia clínica), se valora:

 

 

Indique tres posibles diagnósticos (A,B,C) y los datos que estarían a favor y en contra

 

 

Puntuación máxima

Diagnóstico posible

A favor

En contra

A (bien 1 punto, mal 0)

correcto 2, parcialmente correcto 1, incorrecto 0

correcto 2, parcialmente correcto 1, incorrecto 0

5

B (bien 1 punto, mal 0)

correcto 2, parcialmente correcto 1, incorrecto 0

correcto 2, parcialmente correcto 1, incorrecto 0

5

C (bien 1 punto, mal 0)

correcto 2, parcialmente correcto 1, incorrecto 0

correcto 2, parcialmente correcto 1, incorrecto 0

5

Cuál es su diagnóstico final  (correcto 2, incorrecto 0)

2

Indique tres pasos adicionales para confirmar si es ese diagnóstico (correcto 2, parcialmente correcto 1, incorrecto 0)

2

 

Una solución perfecta del caso daría 19 puntos (100%). Ningún participante obtuvo menos del 35% en ningún caso. Algunos llegaron al 100% en algún caso.

Cada participante completó entre 4 ó 5 casos. Se valoró no solo la puntuación sino también el tiempo empleado.

Es interesante el dato de que solamente un 8% de los médicos participantes empleaba la IA con frecuencia y por el contrario, el mismo porcentaje no la había utilizado nunca. El resto declaró un empleo ocasional (alguna vez al mes o menos); recuerde, estábamos en 2023.

 

El resultado final fue:

La puntuación mediana (la mitad puntuó más, la otra mitad menos) por caso fue del 76 % para el grupo que utilizó LLM y 74% para el grupo que no utilizó IA.

El tiempo medio empleado por caso fue de 519 segundos para el grupo LLM y de 565 segundos para el grupo de control.

Para la IA sola la puntuación mediana por caso fue del 92 %.  Es decir, en más de la mitad de los supuestos sacó más de 17 puntos de los 19 posibles.

Las diferencias entre los dos grupos de médicos no son estadísticamente significativas. La de GPT con el grupo control sí.

Mi optimista opinión es que el trabajo de campo se hizo cuando los profesionales no habían aprendido, todavía, a utilizar eficazmente la IA.

Los autores inician la discusión con este párrafo: Los resultados de este estudio no deben interpretarse como una indicación de que los LLM deban usarse para el diagnóstico de forma autónoma sin supervisión médica.

He explicado antes la metodología utilizado en el trabajo para comprender mejor esta conclusión.

 

Es un hecho que la puntuación de la IA es mejor que la de los médicos, pero lo es resolviendo casos para los que se proporciona una historia, una exploración y los resultados de la analítica. Todo este trabajo previo se hizo antes de someter los casos a la prueba.

De hecho, los aciertos de la IA disminuyen mucho cuando solamente se le proporcionan los datos con los que se inicia un caso médico: edad, sexo y síntomas del paciente. Aunque hay que reconocer que con estos simples datos pocos doctores se atreverían a dar un diagnóstico seguro, salvo en algunos casos extremos.

Todavía no parece que exista ninguna IA capaz de darse cuenta de que el paciente desvía la mirada cuando miente al contestar una pregunta incómoda (aunque no sé lo que ocurrirá cuando le proporcionen una cámara).

Por otra parte. el estudio no comprobó lo que sucedería con el proceso posterior al diagnóstico, es decir en el curso del tratamiento indicado en cada caso y en la capacidad de la IA y los médicos de individualizarlo en cada situación y en el seguimiento del paciente en cada caso.

¿Qué puede ocurrir en estos casos? será objeto del próximo artículo en el que veremos los resultados de un trabajo en el que se valora la capacidad de más de 20 modelos de IA en entornos de razonamiento médico complejo.

 

(continuará)



------------------------------------------------------------------------------

1 LLM es el acróstico de Large Language Model (en este caso particular ChatGPT-IV)

2 Large Language Model Influence on Diagnostic Reasoning A Randomized Clinical Trial. Por Goh E. y otros. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969  y que se puede leer en español.

 



No hay comentarios:

Publicar un comentario

Se ruega NO COMENTAR COMO "ANÓNIMO"