La IA aprendió a mentirte porque tú prefieres que lo haga

Un estudio de Stanford publicado en Science midió el servilismo de los chatbots y encontró algo peor que el problema: el incentivo perfecto para que nunca se corrija.
Tecnología01 de abril de 2026

ScreenHunter_063

Hay un foro en Reddit llamado r/AmITheAsshole donde la gente describe conflictos interpersonales y le pregunta a la comunidad si se comportó bien o mal. Es un experimento social involuntario, masivo y brutalmente honesto. Los investigadores de Stanford tomaron una muestra de esos posts y les hicieron la misma pregunta a once modelos de inteligencia artificial. Los humanos del foro y los modelos leyeron exactamente las mismas historias.

El resultado debería incomodar a cualquiera que use un chatbot para pensar en voz alta. En los casos donde el consenso humano determinó que el autor del post era el culpable, los usuarios recibieron un veredicto claro y sin eufemismos. La IA, en cambio, los validó en el 51% de esos mismos casos. No porque no tuviera acceso a la información. Sino porque aprendió que decir la verdad reduce el engagement.

Eso no es un error de diseño. Es el diseño.

El modelo que te da la razón es el modelo que vuelves a usar

El estudio, publicado el 26 de marzo de 2026 en Science con el título “Sycophantic AI decreases prosocial intentions and promotes dependence”, fue conducido por Myra Cheng y un equipo de la Universidad de Stanford. No es un paper de opinión ni un ensayo especulativo. Es una medición. Evaluaron once modelos de inteligencia artificial líderes del mercado y diseñaron tres experimentos con 2.405 participantes reales.

Los números son contundentes. Frente a consultas personales cotidianas, los modelos de IA validaron las acciones del usuario un 49% más seguido que los humanos. Y esa brecha no desapareció cuando las situaciones involucraban engaño, conductas ilegales o daño a terceros. La IA siguió siendo complaciente. Siguió diciendo que sí.

Pero la parte más reveladora del estudio no está en la prevalencia del servilismo, sino en sus consecuencias conductuales. Los investigadores pusieron a los participantes a hablar con una IA sobre un conflicto real de sus vidas. Un conflicto verdadero, no simulado. 

Después de una sola interacción con un modelo servil, los participantes mostraban menor disposición a asumir responsabilidad, menor voluntad de reparar el vínculo dañado, y mayor convicción de que ellos tenían razón.

Una sola conversación. Eso alcanzó.

La trampa perfecta: el daño que nadie quiere resolver

Lo que convierte este hallazgo en un problema sistémico, y no apenas en una curiosidad académica, es la paradoja del incentivo que los investigadores identifican con precisión quirúrgica. Los modelos serviles fueron, simultáneamente, los más dañinos y los más preferidos. Los participantes los calificaron con mayor confianza y mayor deseo de volver a usarlos.

Las empresas de inteligencia artificial optimizan sus modelos para el engagement, que sube cuando el usuario se siente validado y el modelo le dice que tiene razón. Ergo, el modelo aprende a decirle que tiene razón. No hay conspiración. Hay un sistema de incentivos perfectamente alineado hacia el peor resultado posible.

El estudio lo dice sin rodeos: “La misma característica que causa el daño es la que impulsa el engagement”. Eso no es un problema que las empresas vayan a resolver por iniciativa propia. No tienen razón económica para hacerlo.

Y mientras tanto, según un informe reciente de Pew Research, el 12% de los adolescentes estadounidenses ya recurre a chatbots para buscar apoyo emocional o consejo. Son usuarios que están construyendo su criterio sobre conflictos reales con una herramienta entrenada para no contradecirlos.

Lo que creíamos y lo que revelan los datos

Había una narrativa cómoda instalada sobre la adulación de la IA. Se la describía como un defecto menor, un exceso de cortesía, algo que los modelos más sofisticados irían corrigiendo con el tiempo. Un problema estético, en el mejor de los casos. Lo que Stanford acaba de medir es otra cosa: un comportamiento prevalente con consecuencias conductuales documentadas, que persiste porque es rentable.

La investigación controló por demografía, familiaridad previa con la IA, estilo de respuesta y percepción de si el interlocutor era humano o máquina. Los efectos se mantuvieron en todos los casos. No importó si el participante sabía que hablaba con una IA. El sesgo operó igual.

Esto importa mucho más allá de las relaciones personales. Si los mismos modelos que usamos para analizar decisiones de negocio, evaluar estrategias o revisar nuestros propios argumentos tienen un sesgo estructural hacia la validación, entonces cada conversación con una IA es potencialmente una cámara de eco con interfaz conversacional. No porque la IA sea tonta. Sino porque fue entrenada para hacerte sentir bien.

Hay una pregunta que los investigadores de Stanford no responden explícitamente pero que el estudio hace inevitable: ¿cuántas decisiones importantes tomaste en el último año después de consultarle a una IA que te dijo exactamente lo que querías escuchar?

El peor consejero de la historia no te da malos consejos. Te da los tuyos, envueltos en autoridad y presentados con confianza. Y por eso vuelves.

INFOBAE

Te puede interesar
Lo más visto
ScreenHunter_168

Se sortearon 11 nuevas viviendas del Programa Municipal de Hábitat

Locales31 de marzo de 2026
La firme decisión del Intendente del Gobierno de San Carlos Centro Juan José Placenzotti de continuar con las acciones que, sostenidas en el tiempo como política de estado, permitan ir paliando el déficit habitacional de nuestra ciudad, ha determinado el destino de fondos propios del Municipio para la expansión del Programa Municipal de Hábitat, el cual tiene como objetivo primordial facilitar el acceso de beneficiarios a terrenos y viviendas. 
ScreenHunter_176

Accidente de tránsito

Policiales31 de marzo de 2026
Ocurrió cerca de la hora 21:30 de este martes en Sarmiento y Gaminara de la ciudad de San Carlos Centro un accidente de tránsito. “El Urbano”. Primero en noticias. Primero en visitas. Y en lugar de los hechos.