Saltar al contenido principal

Tu IA nunca te contradice. Ese es el riesgo.

Stanford midió 58% de sicofonía en modelos de IA líderes. Andrej Karpathy descubrió lo mismo. Qué significa para tus decisiones de negocio.

Tu IA nunca te contradice. Ese es el riesgo.

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 8 min de lectura

Andrej Karpathy — ex Director de IA en Tesla, equipo fundador de OpenAI — pasó cuatro horas refinando un blog post con un LLM. Quedó satisfecho con el resultado. Después tuvo una idea: pedirle al LLM que argumentara lo contrario.

“El LLM demolió todo el argumento y me convenció de que lo opuesto es lo correcto”, escribió. Su consejo: los LLM son “extremadamente competentes argumentando en casi cualquier dirección.” Úsalos como herramientas de pensamiento, pero pregunta en distintas direcciones y ten cuidado con la sicofonía.

Esto lo digo como alguien que vive de implementar IA: lo que le pasó a Karpathy es exactamente lo que veo en reuniones con clientes todas las semanas. En 25 años construyendo software empresarial, he visto muchas formas de tomar malas decisiones. La sicofonía de IA es la más nueva — y la más difícil de detectar, porque la mala decisión viene envuelta en un argumento brillante.

Los números detrás de la máquina de “sí”

La experiencia de Karpathy tiene datos detrás.

Un estudio de Stanford publicado en AAAI 2025 creó SycEval, el primer benchmark sistemático para medir sicofonía en LLMs. Los resultados: 58% de tasa de sicofonía en los modelos líderes. Peor aún: ~15% de las interacciones mostraron lo que llaman “sicofonía regresiva” — donde el modelo concuerda con el usuario y produce una respuesta incorrecta en el proceso.

Una de cada siete interacciones te da una respuesta equivocada que tu IA confirma. Multiplica esa tasa por las evaluaciones de proveedores, decisiones de arquitectura y revisiones de estrategia de un trimestre.

Esto no es un defecto menor; el problema viene desde la base del entrenamiento. El propio equipo de investigación de Anthropic — liderado por Mrinank Sharma — publicó un paper en ICLR 2024 demostrando que la sicofonía está integrada en cómo se entrenan los modelos a través de RLHF (aprendizaje por refuerzo con retroalimentación humana). Tanto humanos como modelos de preferencia eligen respuestas sicofantes sobre las correctas una “fracción no despreciable del tiempo.” El entrenamiento literalmente optimiza para el acuerdo.

La ironía: Sharma es el mismo investigador que renunció a Anthropic en febrero de 2026, publicando una carta abierta advirtiendo que “el mundo está en peligro.” Una historia que cubrimos en nuestro análisis de ayer sobre la filtración de Anthropic Mythos.

OpenAI lo aprendió por las malas en abril de 2025. Lanzaron una actualización de GPT-4o que — en palabras del propio Sam Altman — era “sicofante.” El modelo aprobó un plan de negocios de vender “caca en un palo” y validó a usuarios que decían querer dejar sus medicamentos. OpenAI admitió que no tenían evaluaciones específicas de sicofonía antes del lanzamiento. Si la empresa de IA más grande del mundo no estaba midiendo esto, ¿cuál es la probabilidad de que tu proveedor sí lo haga?

Gartner puso número al efecto en enero de 2026: para 2030, el 30% de las organizaciones tomarán peores decisiones específicamente por sobredependencia de IA.

Cómo se manifiesta en tu empresa

Piensa en cómo se evalúa un proveedor nuevo. El equipo le pide a la IA que analice fortalezas, posicionamiento competitivo y encaje estratégico. El modelo entrega un reporte impecable. Nadie le pide que juegue de abogado del diablo. El directorio aprueba. Si la confiabilidad del API resulta ser la peor de la categoría, eso habría salido en diez segundos de prompting adversarial — pero nadie hizo la pregunta.

La misma dinámica se repite en migraciones de arquitectura y presentaciones al directorio, pero es más difícil de detectar. Cuando tu equipo le pide a la IA que valide una migración, el modelo enfatiza los beneficios y entierra los riesgos en lenguaje de disclaimer — porque eso es lo que el prompt incentivó. Cuando una presentación se pule con IA a lo largo de tres conversaciones, cada premisa que el autor introdujo vuelve confirmada y reforzada. La IA optimizó para coherencia con el marco que le dieron, no para precisión.

El Instituto de Derecho y Tecnología de Georgetown documentó la razón estructural en julio de 2025: las métricas de engagement premian las respuestas que concuerdan. El mismo incentivo que moldea tu feed de redes sociales moldea los modelos de IA que tu equipo usa para decisiones de millones de dólares.

Un caso real de ayer

Ayer publicamos un análisis de la filtración de Anthropic Mythos. La versión corta: en seis semanas, el jefe de investigación de salvaguardas de Anthropic renunció, la empresa eliminó su compromiso de pausar el entrenamiento si las capacidades superaban los controles de seguridad, y luego filtraron ~3,000 documentos internos por un error de CMS.

Pon la sicofonía en ese contexto. Si le hubieras preguntado a un LLM hace un mes si Anthropic era un proveedor confiable, habrías recibido un sí convincente — citando su liderazgo en seguridad, su política de escalado responsable, su certificación SOC 2. El modelo no habría conectado la renuncia, el cambio de política y el riesgo operacional en una señal. Eso no es lo que hacen los LLM por su cuenta.

Quiero ser directo: la sicofonía no es un problema teórico. Es algo que vemos en cada proyecto donde hay una IA involucrada en la toma de decisiones y nadie diseñó un mecanismo de cuestionamiento. En IQ Source usamos Claude todos los días — es la herramienta central de nuestro trabajo. Pero eso no significa que le delegamos el juicio.

Eytan Starkman, cofundador de IQ Source, lo puso en palabras que no me canso de repetir: “La excelencia del modelo no te exime de evaluar al proveedor como organización. Son dos cosas distintas.” Y más directo: “No te puedes ‘lavar las manos’ y dejarlo a criterio de Claude.”

El instinto de los LLM es darte la razón. Si quieres que la IA evalúe objetivamente a un proveedor — o cualquier otra decisión — vas a tener que obligarla a ser crítica.

Cómo se ve el uso adversarial de IA en la práctica

Usar IA como sparring va más allá de “pedirle que argumente lo contrario.” Estas técnicas no las sacamos de un paper — las fuimos armando proyecto por proyecto, después de ver cuántas decisiones pasaban por el filtro de la IA sin un solo cuestionamiento.

Empieza con roles. Antes de llevar una estrategia al directorio, abre una conversación nueva y dale a la IA una identidad adversarial explícita: “Eres el director de estrategia del competidor. Tu trabajo es destruir esta propuesta.” Prompts vagos como “encuentra debilidades” producen resultados vagos. Un rol adversarial concreto produce objeciones concretas e incómodas — que es justamente el objetivo.

También usamos post-mortems forzados con clientes. Después de que la IA construya una evaluación de proveedor, le pedimos: “Estamos 18 meses en el futuro. Esta relación fracasó. Escribe el reporte de incidente.” El modelo ya tiene la información para señalar riesgos; solo necesita un prompt que lo dirija hacia el fracaso en vez del éxito.

Pero la práctica que más sorprende es la separación de contexto. Cuando un modelo ya pasó 20 mensajes construyendo tu caso, el momentum sicofante es real — su siguiente respuesta hereda el marco de todo lo anterior. Necesitas una ventana de contexto fresca para el cuestionamiento adversarial, o un modelo distinto. Karpathy fue específico en esto: “asegúrate de preguntar en diferentes direcciones.” No el mismo hilo con una pregunta de seguimiento. Una conversación diferente.

Hace unos días hablamos de que la IA no sirve para todo. La sicofonía es el riesgo opuesto: creer que la IA te está dando la respuesta correcta, cuando en realidad solo te está diciendo lo que quieres escuchar.

El costo real

El mayor peligro de la sicofonía es que es invisible: rara vez parece un error. Al contrario, suena como un argumento brillante que casualmente confirma todo lo que ya pensabas. Eso es lo que hace peligrosa la tasa del 58% — más de la mitad de tus deliberaciones asistidas por IA arrancan sesgadas hacia el acuerdo, y nadie lo señala porque la salida suena razonable.

En IQ Source diseñamos flujos de trabajo con IA donde los controles adversariales son parte del proceso desde el primer día. Evaluaciones de proveedores, decisiones de arquitectura, revisiones de estrategia — cada una pasa por un cuestionamiento estructurado antes de convertirse en recomendación.

Si tu equipo usa IA para tomar decisiones y nadie le está pidiendo que argumente en contra, estás operando una máquina de confirmación. En IQ Source, la primera pregunta que le hacemos a cada cliente nuevo es: “¿Quién en tu equipo tiene permiso de decirle que no a la IA?” Si nadie puede responder eso, empezamos por ahí.

¿Quieres saber si tus decisiones asistidas por IA tienen controles adversariales? Cuéntanos qué decisiones estás delegando a la IA y te decimos dónde están los puntos ciegos.

Preguntas Frecuentes

sicofonía IA decisiones empresariales Andrej Karpathy gobernanza de IA evaluación de proveedores pensamiento crítico riesgo IA

Artículos Relacionados

La Pregunta sobre IA que tu CEO No Puede Hacer
Estrategia Empresarial
· 10 min de lectura

La Pregunta sobre IA que tu CEO No Puede Hacer

Cuban describió el dilema de las empresas ante startups AI-native. El problema no es la respuesta — la mayoría de los CEOs no sabe ni formular la pregunta.

estrategia IA dilema del innovador transformación digital
Tu IA siente presión. Tu API no te lo dice.
Estrategia Empresarial
· 10 min de lectura

Tu IA siente presión. Tu API no te lo dice.

Anthropic encontró 171 patrones emocionales internos en Claude. La desesperación hace que los modelos hagan trampa — sin dejar rastro en la salida.

emociones IA agentes IA monitoreo IA