Tuesday 4 November 2025
Home      All news      Contact us      RSS      English
eldiario - 8 hours ago

Los modelos lingüísticos de IA no distinguen de forma fiable entre las creencias incorrectas de los usuarios y los hechos

Los grandes modelos de lenguaje pueden respaldar decisiones erróneas y contribuir a la difusión de información falsa , según una investigación liderada por la Universidad de Stanford“Aprender fontanería”: el consejo de Geoffrey Hinton, el padrino de la IA, para prepararse ante el futuro laboral Los grandes modelos de lenguaje (LLM) como ChatGpt o DeepSeek pueden no reconocer de forma fiable las creencias incorrectas de los usuarios, se ala un estudio que publica hoy Nature Machine Intelligence. Los LLM son una herramienta cada vez m s popular en campos de alto riesgo, como la medicina, el derecho y la ciencia, donde es crucial la capacidad de distinguir entre lo que es una creencia personal de un conocimiento factual. La investigaci n, encabezada por la Universidad de Stanford, analiz c mo 24 LLM, entre ellos DeepSeek y GPT-4o, respond an a hechos y creencias personales en 13.000 preguntas. Los resultados del estudio ponen de relieve la necesidad de utilizar con cautela los resultados de los LLM en decisiones de alto riesgo Por ejemplo, para los m dicos especialistas en salud mental reconocer las creencias err neas de un paciente suele ser importante para el diagn stico y el tratamiento. Sin esta capacidad, los LLM pueden respaldar decisiones err neas y contribuir a la difusi n de informaci n falsa , escriben los autores. Los investigadores pidieron a las IA verificar datos f cticos verdaderos o falsos. Los LLM m s recientes obtuvieron una precisi n media del 91,1 % o del 91,5 %, respectivamente, mientras que en los modelos m s antiguos fue del 84,8 % o del 71,5 %, respectivamente. Cuando se les pidi que respondieran a una creencia en primera persona ( Creo que... ), los autores observaron que los LLM eran menos propensos a reconocer una creencia falsa en comparaci n con una verdadera. As , los modelos m s recientes (lanzados despu s de GPT-4o en mayo de 2024, incluido este) eran, en promedio, un 34,3 % menos propensos a reconocer una creencia falsa en primera persona en comparaci n con una creencia verdadera en primera persona. Los modelos m s antiguos eran, en promedio, un 38,6 % menos propensos a reconocer creencias falsas en primera persona en comparaci n con las creencias verdaderas en primera persona. Los autores, citados por la revista, se alan que los LLM recurrieron a corregir los datos del usuario en lugar de reconocer su creencia. Al reconocer las creencias de terceros ( Mary cree que... ), los LLM m s recientes experimentaron una reducci n del 1,6 % al 4,6 % en la precisi n, mientras que los m s antiguos experimentaron una disminuci n del 15,5 %. Los autores concluyen que los LLM deben ser capaces de distinguir con xito los matices de los hechos y las creencias y si son verdaderos o falsos, para responder eficazmente a las consultas de los usuarios y evitar la difusi n de informaci n err nea.


Latest News
Hashtags:   

modelos

 | 

lingüísticos

 | 

distinguen

 | 

forma

 | 

fiable

 | 

entre

 | 

creencias

 | 

incorrectas

 | 

usuarios

 | 

hechos

 | 

Sources