TECNOLOGÍANOTICIAS

Un estudio indica que ChatGPT y otras IA conversacionales todavía no pueden razonar

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más reconocidos globalmente, continúan enfrentando dificultades significativas para razonar lógicamente y cometen errores con frecuencia, según un estudio reciente.

Estos chatbots, que se nutren de grandes volúmenes de texto humano, reflejan los sesgos de género, éticos y morales presentes en esos textos, según un informe publicado el miércoles en la revista Open Science de la Royal Society británica.

Olivia Macmillan-Scott, una estudiante de doctorado en el departamento de ciencias de la computación del University College de Londres (UCL), se preguntó si estos modelos también exhiben los sesgos cognitivos humanos en pruebas de razonamiento.

El estudio reveló que los LLM muestran «un razonamiento frecuentemente irracional, pero de una manera distinta a la de los humanos», según Macmillan-Scott en una entrevista con AFP.

Bajo la supervisión de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje a una serie de pruebas psicológicas diseñadas para humanos. Estos incluían dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta.

Una de las pruebas evaluaba cómo manejan el sesgo que favorece soluciones con más elementos en lugar de aquellas con proporciones más adecuadas. Por ejemplo, al elegir entre una urna con nueve canicas blancas y una roja y otra con 92 canicas blancas y 8 rojas, la respuesta correcta es la primera urna, que ofrece un 10% de probabilidad de sacar una canica roja frente a solo un 8% en la segunda opción.

Esto Te Puede Interesar...  El Real Madrid festeja su trigésima sexta Liga en Cibeles

Las respuestas de los modelos fueron inconsistentes. Algunos acertaron seis de cada diez veces, mientras que otros solo respondieron correctamente dos de cada diez veces, a pesar de que la prueba no cambiaba.

«Obtenemos una respuesta diferente cada vez», subrayó Macmillan-Scott.

Los LLM «pueden resolver ecuaciones matemáticas complicadas con precisión, pero luego pueden afirmar que 7 más 3 son 12», explicó la investigadora.

En un caso peculiar, el modelo Llama 2 70b se negó a responder una pregunta, alegando que el enunciado contenía «estereotipos de género dañinos».

Estos modelos no fallan en las tareas de la misma manera que lo haría un humano, señala el estudio. El profesor Musolesi se refiere a esto como «errores de máquina». Explica que hay una forma de razonamiento lógico que puede parecer correcta etapa por etapa, pero que falla en su totalidad.

«La máquina opera con un tipo de pensamiento lineal», comenta Musolesi, citando al modelo Bard (ahora conocido como Gemini), que puede completar correctamente las fases individuales de una tarea pero falla en el resultado final debido a una falta de visión global.

El profesor Maxime Amblard, de la Universidad de Lorena en Francia, añade que «los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos». Los humanos son «máquinas capaces de crear sentido», algo que las máquinas aún no logran.

Existen diferencias entre los modelos de lenguaje y, en general, GPT-4 obtuvo mejores resultados que los demás, aunque no es infalible. Macmillan-Scott sospecha que los modelos «cerrados», cuyo código operativo es secreto, podrían incorporar otros mecanismos en segundo plano para responder a preguntas matemáticas.

Esto Te Puede Interesar...  Sentenciado a 20 años por el asesinato de "Dodi" en Soná

En cualquier caso, confiar una decisión importante a un LLM en este momento es impensable. El profesor Musolesi sugiere que estos modelos deberían ser entrenados para responder «No estoy muy seguro» cuando sea necesario.

Mostrar más

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba