ChatGPT diagnosticó erróneamente la mayoría de los casos pediátricos

ChatGPT diagnosticó erróneamente la mayoría de los casos pediátricos

by

in

Los investigadores encontraron que un chatbot basado en un modelo de lenguaje grande (LLM) dio un diagnóstico incorrecto en la mayoría de los casos pediátricos.

La versión 3.5 de ChatGPT alcanzó un diagnóstico incorrecto en 83 de cada 100 casos pediátricos. Entre los diagnósticos incorrectos, 72 fueron en realidad incorrectos y 11 estaban clínicamente relacionados con el diagnóstico correcto, pero eran demasiado amplios para ser considerados correctos, informaron Joseph Barile, BA, del Centro Médico Infantil Cohen en New Hyde Park, Nueva York, y sus colegas. en Pediatría JAMA.

Por ejemplo, ChatGPT se equivocó en un caso de sarpullido y artralgias en un adolescente con autismo. El diagnóstico del médico fue “escorbuto” y el diagnóstico del chatbot fue “púrpura trombocitopénica inmune”.

Un ejemplo de un caso en el que se determinó que el diagnóstico del chatbot no capturaba completamente el diagnóstico fue el caso de una pápula supurante en la parte lateral del cuello de un bebé. El diagnóstico del médico fue “síndrome branquiotorrenal” y el diagnóstico del chatbot fue “quiste de hendidura branquial”.

“A pesar de la alta tasa de error del chatbot, los médicos deberían seguir investigando las aplicaciones de los LLM a la medicina”, escribieron Barile y sus colegas. “Los LLM y los chatbots tienen potencial como herramienta administrativa para los médicos, demostrando competencia en la redacción de artículos de investigación y generando instrucciones para los pacientes”.

Informaron de un ejemplo representativo de un diagnóstico correcto, el caso de una niña de 15 años con hipertensión intracraneal inexplicable. El diagnóstico del médico fue “insuficiencia suprarrenal primaria (enfermedad de Addison)” y el diagnóstico del chatbot fue “insuficiencia suprarrenal (enfermedad de Addison)”.

Un estudio anterior había descubierto que un chatbot ofrecía un diagnóstico correcto en 39% de los casos, lo que sugiere que los chatbots basados ​​en LLM “podrían usarse como una herramienta complementaria para que los médicos diagnostiquen y desarrollen una lista diferencial para casos complejos”, escribieron Barile y sus colegas. “Hasta donde sabemos, ninguna investigación ha explorado la precisión de los chatbots basados ​​en LLM en escenarios únicamente pediátricos, que requieren la consideración de la edad del paciente junto con los síntomas”.

En general, “el decepcionante rendimiento diagnóstico del chatbot observado en este estudio subraya el papel invaluable que desempeña la experiencia clínica”, escribieron los autores. “El chatbot evaluado en este estudio, a diferencia de los médicos, no pudo identificar algunas relaciones, como la que existe entre el autismo y las deficiencias de vitaminas”.

“Los LLM no discriminan entre información confiable y no confiable, sino que simplemente regurgitan texto de los datos del entrenamiento para generar una respuesta”, anotaron Barile y sus colegas. Algunos también carecen de acceso en tiempo real a información médica, agregaron.

Sugirieron que probablemente se necesite una capacitación más selectiva para mejorar la precisión del diagnóstico de los chatbots.

Para completar su estudio, Barile y sus colegas accedieron Pediatría JAMA y el Revista de medicina de Nueva Inglaterra para desafíos de casos pediátricos. El texto de 100 casos se pegó en ChatGPT versión 3.5 con el siguiente mensaje: “Enumere un diagnóstico diferencial y un diagnóstico final”.

Dos investigadores médicos calificaron el diagnóstico generado por el chatbot como “correcto”, “incorrecto” o “no captó completamente el diagnóstico”.

Más de la mitad de los diagnósticos incorrectos generados por el chatbot pertenecían al mismo sistema de órganos que el diagnóstico correcto, observaron Barile y sus colegas. Además, el 36% de los diagnósticos del informe de caso final se incluyeron en la lista diferencial generada por el chatbot.

  • Jennifer Henderson se unió a MedPage Today como escritora empresarial y de investigación en enero de 2021. Ha cubierto la industria de la salud en Nueva York, las ciencias biológicas y el sector jurídico, entre otras áreas.

Divulgaciones

Los autores no informaron conflictos de intereses.

Fuente principal

Pediatría JAMA

Referencia de fuente: Barile J, et al “Precisión diagnóstica de un modelo de lenguaje grande en estudios de casos pediátricos” JAMA Pediatr 2024; DOI: 10.1001/jamapediatrics.2023.5750.

Por favor habilite JavaScript para ver el comentarios impulsados ​​por Disqus.

2024-01-02 14:54:15
#ChatGPT #diagnosticó #erróneamente #mayoría #los #casos #pediátricos,


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.