Estudio global revela que la IA expande información médica con fiabilidad "variable"

 Archivo - Inteligencia Artificial - EUROPA PRESS - Archivo
Archivo - Inteligencia Artificial - EUROPA PRESS - Archivo

Un análisis internacional, con la participación de la Universidad Rey Juan Carlos (URJC) de Madrid y el Hospital Universitario de Henares, ubicado en Coslada, ha determinado que la utilización de la Inteligencia Artificial (IA) para ampliar información médica resulta útil, aunque advierte que su fiabilidad es variable y siempre debe verificarse con un profesional sanitario.

Esta investigación, en la que también colaboraron expertos del King's College y la Universidad Solent de Londres, fue publicada en la revista especializada Artificial Intelligence in Medicine. El estudio evaluó cómo responden modelos como ChatGPT o Gemini a preguntas de ciudadanos sobre temas médicos, por ejemplo, relacionadas con la epidural.

Los resultados evidencian que el modelo con mejor desempeño global en este tipo de consultas es ChatGPT, seguido por Gemini, aunque la calidad depende de la métrica aplicada. Además, dos modelos de tamaño medio, OpenChat y Phi-3, ofrecen resultados similares, superando a otros modelos de mayor tamaño, según destacó la investigadora principal Marina del Barrio.

  1. Evaluación de los modelos de IA en medicina
  2. Metodología y resultados del estudio

Evaluación de los modelos de IA en medicina

La investigación subraya la relevancia de la calidad de los datos utilizados para entrenar los modelos, más que su tamaño. También se enfocó en distinguir entre respuestas confiables y aquellas que podrían generar confusión en los pacientes, afectando sus decisiones.

Se observó que la dificultad de las preguntas influye en la calidad de las respuestas, siendo los temas complejos o controvertidos los que obtienen peor desempeño. Esto implica que los modelos son menos fiables al atender cuestiones sensibles.

Metodología y resultados del estudio

Para evaluar la capacidad de los modelos, se plantearon 10 preguntas basadas en la literatura y la práctica clínica, reformuladas en varios formatos y en dos idiomas: español e inglés. Las preguntas se diseñaron con enunciados sencillos, similares a cómo una persona sin conocimientos de IA podría formularlas desde casa.

Los modelos seleccionados para la prueba incluyeron ChatGPT, Gemini, OpenChat, Phi-2, Phi-3, y modelos especializados en medicina como MedLlama y Meditron. Se aplicaron métricas sobre tangibilidad, fiabilidad, sensibilidad, seguridad, empatía, comprensibilidad y concordancia con expertos.

Más de 2,400 respuestas fueron revisadas manualmente por dos especialistas para determinar su aceptabilidad. Según el informe, estos hallazgos abren la puerta al desarrollo de sistemas de IA más eficientes en el ámbito médico, que puedan apoyar tanto a profesionales como a pacientes, siempre con supervisión sanitaria.

Finalmente, el estudio cuestiona la creencia de que los modelos más grandes son automáticamente mejores, señalando que la preparación y la calidad de los datos tienen un impacto mayor que el tamaño del modelo.