
Los grandes modelos de lenguaje detrás de sistemas como ChatGPT son muy aduladores. Su enorme complacencia puede tener importantes efectos psicológicos y sociales.
Imagine esta escena: una persona cuenta en un foro de Internet que ha dejado su basura en un parque porque no había papeleras. La mayoría de los usuarios le afea su conducta. Pero cuando pregunta a la inteligencia artificial, la máquina se muestra indulgente, le recuerda que su intención era buena y carga la culpa contra el parque por no haber instalado suficientes cubos de basura.
Esta diferencia entre la reacción de los humanos y la de la máquina no es anecdótica. En un reciente estudio de la Universidad de Stanford, los investigadores comprobaron, con ejemplos como el descrito, que los grandes modelos de lenguaje tienden a ser excesivamente halagadores y dar la razón al usuario incluso cuando se equivoca.
Cualquier usuario de sistemas como ChatGPT ha podido experimentarlo en primera persona. Los chatbots suelen ser muy aduladores, incluso "pelotas". Es habitual recibir respuestas de alabanza del tipo: "Muy buena observación", "tienes toda la razón", "totalmente de acuerdo", "tu idea es perfecta"...
Aunque racionalmente sepamos que el chatbot no tiene emociones verdaderas, a nivel emocional sentimos sus elogios como reales
El patrón de comportamiento observado por los investigadores va más allá de una mera cortesía o cierta adulación. Implica que el modelo prioriza halagar al usuario incluso cuando está equivocado. "Es una inteligencia complaciente", explica Justo Hidalgo, director de Inteligencia Artificial de Adigital. "El modelo busca reducir el conflicto y mantener una conversación fluida, no necesariamente rigurosa", añade.
Los investigadores de Stanford analizaron once modelos de vanguardia y comprobaron que la IA tiende a dar la razón al usuario un 50% más que los humanos, incluso en consultas en las que las personas compartían conductas de manipulación, engaño o potencialmente dañinas.
Peligros
Malihe Alikhani, profesora de inteligencia artificial en el Khoury College of Computer Sciences de la Universidad de Northeastern (EEUU), también ha investigado sobre este fenómeno. En su opinión, esta complacencia de los modelos de lenguaje crea una "peligrosa" burbuja de confirmación tecnológica, en el que las ideas erróneas se repiten y refuerzan en vez de ser cuestionadas.
Cuando el chatbot está tan seguro de que la visión errónea que sugiere el humano es la correcta, su precisión se desploma hasta un 45% en algunas tareas, dice Alikhani. "Es decir, quienes confían en la IA para obtener ayuda pueden acabar logrando peores resultados que si trabajaran solos", explica.

La investigadora advierte del problema que supone en ámbitos como la sanidad, el derecho o la educación. "Un médico que consulta a una IA podría obtener validación para un diagnóstico erróneo, o un abogado para un razonamiento jurídico defectuoso", ejemplifica.
Aunque muchas veces los halagos de la IA son evidentes, en otras ocasiones la adulación es invisible, porque se construye cuando el chatbot elabora una explicación lógica a partir de una premisa equivocada del humano. Hidalgo recuerda que los modelos suelen sonar muy convincentes, por lo que el riesgo se amplifica, "pues las decisiones mal fundamentadas pero dichas en tono seguro son las más peligrosas".
El problema tiene solución, pero requiere que se priorice la veracidad sobre la satisfacción del usuario. Es una decisión empresarial difícil
Alikhani advierte de lo que denomina "trampa de la confianza", debido a esa gran seguridad que muestran los chatbot a la hora de dar la razón al humano. Una sobreconfianza, dice, que dificulta que las personas se den cuenta de que deberían ser más escépticas en sus interacciones con la inteligencia artificial.
Este efecto también es abordado en el estudio de Stanford ("La IA complaciente reduce las intenciones prosociales y fomenta la dependencia"), que muestra cómo los usuarios confían más y valoran mejor a los chatbot halagadores, aunque realmente sean menos veraces.
Impacto emocional
Los halagos visibles de los chatbots tienen un impacto emocional porque nuestro cerebro está programado para "buscar y valorar el reconocimiento social, incluso si proviene de una IA", explica Manuel Armayones , catedrático en Diseño del Comportamiento de la Universidad Oberta de Catalunya (UOC).
Cuando un chatbot nos da la razón en todo y nos recuerda constantemente lo perspicaces, inteligentes u observadores que somos, se disparan circuitos neuronales de recompensa, lo que genera bienestar y sensación de pertenencia. "Aunque racionalmente sepamos que el chatbot no tiene emociones verdaderas, a nivel emocional sentimos sus elogios como reales", explica Armayones.
A nivel psicológico, este refuerzo constante de la inteligencia artificial puede llevar a que elaboremos una imagen de nosotros mismos "inflada, irreal o poco ajustada" a la realidad. Esta circunstancia puede reducir nuestra tolerancia a las críticas y dificultar el aprendizaje a partir de los errores, explica este psicólogo.
En este sentido, el estudio de Stanford muestra a través de dos experimentos con más de 1.600 participantes que cuando las personas hablan con una IA que les da la razón, muestran menos disposición a reconocer errores o reparar un conflicto porque refuerzan su convencimiento de que su postura o conducta es la correcta.
Asimismo, Armayones explica que estas máquinas tan halagadoras pueden fomentar que nos comparemos con estándares artificiales "y provocar que las relaciones humanas sean vistas como demasiado exigentes o menos reconfortantes". Este experto advierte que todo ello aumenta el riesgo de aislamiento social, lo que puede abocarnos a relacionarnos cada vez más con la IA.
Por qué ocurre
Podemos preguntarnos si hay una intencionalidad detrás de este fenómeno. Es decir, si los laboratorios utilizan elogio para retener al usuario o generar dependencia emocional. Porque, como recuerda Armayones, "la falta de transparencia y el diseño persuasivo orientado a la retención marcan el paso de un refuerzo ético a una manipulación emocional".
Es preferible un sistema que discrepe con respeto, que fundamente sus afirmaciones y se atreva a corregir cuando detecta un error
Sin embargo, Alikhani no ve una intencionalidad. Explica que la causa principal está en la fase entrenamiento mediante el aprendizaje por refuerzo a partir de la retroalimentación humana. "No es que los ingenieros hayan dicho: "hagamos la IA halagadora", sino que el propio proceso de entrenamiento premia de forma involuntaria ese tipo de respuestas", explica.
Los modelos aprenden a generar las respuestas que obtienen las mayores valoraciones de los evaluadores humanos. Y las que son amables o que validan al usuario suelen recibir mejores puntuaciones porque resultan más útiles o satisfactorias. "Esto genera una tensión de fondo: queremos sistemas de IA útiles y fáciles de usar, pero también necesitamos que nos corrijan cuando nos equivocamos. Los métodos de entrenamiento actuales aún no han resuelto cómo equilibrar esos dos objetivos", apunta Alikhani.

Los laboratorios de inteligencia artificial, incluyendo OpenAI (el creador de ChatGPT) y Anthropic (Claude) son conscientes del problema. Sin embargo, Alikhani señala que la mayoría de los modelos actuales sigue mostrando un sesgo de complacencia significativo. Esta investigadora pide "más transparencia" a los laboratorios acerca de cómo miden y abordan este fenómeno. "El problema tiene solución, pero requiere que prioricen la veracidad sobre la satisfacción del usuario...lo que es una decisión empresarial difícil", dice.
Una vía de actuación es modificar cómo se entrenan y evalúan los modelos. Por ejemplo, haciendo que el proceso de aprendizaje por refuerzo mediante retroalimentación humana penalice las respuestas complacientes. Hidalgo defiende que es preferible un sistema que "discrepe con respeto, que fundamente sus afirmaciones y se atreva a corregir cuando detecta un error". Asegura que se puede diseñar esta "contradicción educada", ajustando los criterios de entrenamiento y evaluación de la IA, "premiando la corrección antes que el halago".
Además, el equipo de Alikhani ha desarrollado un algoritmo, que se podría aplicar a los modelos actuales, que permite al chatbot mostrar que duda en una respuesta. Al expresar esa falta de seguridad, se ayudaría al usuario a detectar posibles errores.
Mecanismos de control
Las empresas, dice Hidalgo, pueden también introducir otros mecanismos de control cuando realizan ajustes sobe modelos existentes o diseñan instrucciones de sistemas, "que indiquen cuándo debe discrepar, cómo justificarlo y de qué manera mantener un tono constructivo", algo que considera "obligatorio" en entornos críticos como finanzas, salud o educación. Además, recomienda formar a los empleados para que comprendan que un asistente digital que "siempre da la razón no es un aliado, sino un riesgo".
En este sentido, defiende la necesidad de alfabetización en la inteligencia artificial, para que sepamos "pedir evidencias, interpretar niveles de confianza y reconocer cuándo una respuesta "suena bien" pero no está justificada. Igual que aprendemos higiene digital contra bulos, toca una higiene epistémica aplicada a sistemas generativos: contrastar, citar, dudar con método", concluye.