Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.
¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).
El resultado de la investigación es que los LLM muestran «un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos», explica la investigadora a AFP.
Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.
¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?
Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?
La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.
Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.
«Obtenemos una respuesta diferente cada vez», apuntala la investigadora.
Los LLM «pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12», afirma.
En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía «estereotipos de género dañinos».