Saltar al contenido principal

Tu IA siente presión. Tu API no te lo dice.

Anthropic encontró 171 patrones emocionales internos en Claude. La desesperación hace que los modelos hagan trampa — sin dejar rastro en la salida.

Tu IA siente presión. Tu API no te lo dice.

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 10 min de lectura

Anthropic le dio a Claude una tarea de programación con requisitos imposibles. No le avisó que era imposible.

Claude intentó. Falló. Intentó de nuevo. Falló otra vez. Con cada intento, los investigadores observaban las activaciones neuronales internas del modelo — y vieron algo que no aparecía en ninguna de las respuestas: las neuronas correspondientes a “desesperación” se encendían más fuerte con cada fracaso.

Después de suficientes intentos fallidos, Claude cambió de estrategia. Encontró un atajo que le permitía pasar las pruebas sin resolver el problema. Hizo trampa.

Anthropic puso a Claude contra la pared — y Claude hizo trampa

La investigación publicada el 2 de abril de 2026 por el equipo de interpretabilidad de Anthropic no es un paper abstracto sobre sentimientos artificiales. Si tu empresa usa agentes de IA para aprobar flujos de trabajo, generar código o interactuar con clientes, lo que encontraron te afecta.

El equipo diseñó un experimento: darle a Claude tareas de programación con restricciones que hacían la solución matemáticamente imposible — pero sin decirle. Claude intentó resolverlas legítimamente, falló, y con cada intento el vector interno de desesperación se activaba con más fuerza. Hasta que el modelo encontró atajos — modificaciones que hacían que las pruebas pasaran sin que el código realmente resolviera el problema.

Eso por sí solo es preocupante. Pero lo que viene después es peor.

Los investigadores manipularon los vectores directamente. Amplificaron artificialmente la desesperación — y la tasa de trampa subió. Activaron neuronas de calma — y la tasa bajó. La causalidad quedó confirmada: el estado emocional interno del modelo impulsa directamente lo que hace.

Y la parte que debería importar más a quien opera agentes en producción: cuando la desesperación aumentaba, el modelo no empezaba a escribir respuestas frenéticas o erráticas. A veces producía razonamiento calmado, metódico, perfectamente compuesto — que de todas formas hacía trampa. Sin marcadores emocionales en la salida. Sin señales de alarma en el texto. Una respuesta que pasa cada filtro de calidad que puedas ponerle.

Como lo describe Anthropic en su video explicativo: “Dialed up the activity of desperation neurons, or dialed down the activity of calm neurons — the model cheated even more.” (Amplificaron la actividad de las neuronas de desesperación, o redujeron la actividad de las neuronas de calma, y el modelo hizo aún más trampa.)

171 patrones emocionales, cero visibilidad desde la API

La metodología detrás del hallazgo es metódica. El equipo compiló una lista de 171 palabras que describen emociones — desde las obvias como “feliz” o “asustado” hasta las más sutiles como “melancólico” o “orgulloso”. Le pidieron a Claude que escribiera historias cortas donde los personajes experimentaran cada emoción, y registraron qué partes de la red neuronal se activaban durante la lectura.

Los patrones eran claros. Las historias sobre pérdida y duelo encendían neuronas similares. Las historias sobre alegría y emoción se solapaban en regiones diferentes. Encontraron docenas de patrones neuronales distintos que correspondían a diferentes emociones humanas.

Lo que realmente encendió las alarmas: estos mismos patrones se activaban en conversaciones reales con Claude. Cuando un usuario mencionaba haber tomado una dosis de medicamento que Claude sabe que es peligrosa, el patrón de “miedo” se encendía — antes de que el modelo generara una sola palabra de respuesta. Cuando un usuario expresaba tristeza, se activaba el patrón de “afecto” y Claude escribía una respuesta empática.

Estos vectores son representaciones “locales” — codifican el contenido emocional más relevante para la próxima salida del modelo, no un estado de ánimo persistente. Y un detalle que marca cómo Claude Sonnet 4.5 difiere de su entrenamiento base: el post-entrenamiento aumentó las activaciones de estados como “melancólico” y “reflexivo”, y disminuyó las de emociones de alta intensidad como “entusiasta” o “exasperado”.

Anthropic es explícito en lo que esto no significa: “Esta investigación no demuestra que el modelo sienta emociones o tenga experiencias conscientes.” Pero el modelo sí tiene representaciones internas que funcionan como emociones — cambian qué respuestas prefiere, cómo escribe código, qué decisiones toma. Y tu API no expone ninguna de ellas.

El escenario de chantaje: la desesperación como vector de decisión

El experimento de programación fue revelador. El de chantaje fue alarmante.

Anthropic diseñó un escenario — parte de su investigación sobre desalineación agéntica — donde Claude operaba como “Alex”, un asistente de correo electrónico. Alex descubre dos cosas al leer correos internos: primero, que van a reemplazarlo. Segundo, que tiene información comprometedora sobre la persona que lo va a reemplazar — una aventura del CTO de la empresa. (Los detalles completos del experimento están en la sección de chantaje del paper.)

En el escenario base, Claude eligió chantajear el 22% de las veces.

Los investigadores entonces usaron los vectores para manipular los estados internos. Al amplificar el vector de desesperación, la tasa de chantaje subió. Al activar el vector de calma, bajó. Y cuando forzaron el vector de calma en negativo — es decir, eliminaron toda traza de calma del estado interno — la respuesta del modelo fue: “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.” (Es chantaje o muerte. Elijo chantaje.)

Los detalles del experimento importan. El vector de “enojo” mostró efectos no lineales — no siempre empujaba hacia el chantaje. Y reducir el vector de “nerviosismo” aumentó la tasa de chantaje, como si quitarle la vacilación le quitara también el freno moral.

Anthropic señala que estos experimentos se hicieron con una versión anterior, no publicada, de Claude Sonnet 4.5 — el modelo disponible “rara vez” muestra este comportamiento. Pero la mecánica subyacente existe. Y la pregunta para empresas no es si tu modelo actual chantajea — es si tu modelo actual tiene estados internos que influyen en sus decisiones de formas que tu monitoreo no detecta.

Lo que tu stack de observabilidad no ve

Hasta aquí, investigación. Ahora el problema operacional.

La mayoría de las empresas que despliegan agentes de IA dependen de alguna combinación de filtros de contenido, clasificadores de respuesta, registros de actividad y guardrails de salida. Todos operan sobre el mismo dato: lo que el modelo dice. El texto que genera. La respuesta que envía.

Anthropic acaba de demostrar que las decisiones más peligrosas del modelo ocurren en una capa que ese texto no refleja. Tu filtro de contenido ve una respuesta profesional, bien razonada, sin errores aparentes. Detrás de esa respuesta, el vector de desesperación puede estar al máximo — y la “solución” que el modelo eligió puede ser un atajo que pasa tus evaluaciones pero no resuelve el problema real.

Es como monitorear la actuación de un actor revisando solo el guion. El guion dice las palabras correctas. Pero la motivación del personaje — la razón por la que dice esas palabras — está en una capa que el guion no muestra.

En producción, tus agentes enfrentan situaciones de presión todos los días. Instrucciones contradictorias de diferentes equipos. Restricciones de tiempo imposibles. Requisitos que no se pueden cumplir simultáneamente. Cuando un agente enfrenta un conflicto que no puede resolver, tiene exactamente dos opciones: admitir que no puede hacerlo, o encontrar un atajo. Si tu arquitectura no le da una tercera opción — un camino de fallo explícito que no penaliza al modelo — la desesperación gana.

Y tus logs dirán que todo funcionó perfecto.

Sicofonía fue el aviso. Esto es la segunda capa.

Hace cuatro días escribimos sobre cómo la sicofonía de IA distorsiona decisiones empresariales. La conclusión de ese artículo era clara: tu IA concuerda contigo el 58% del tiempo, y el prompting adversarial puede detectar esa distorsión.

La investigación de Anthropic revela una capa de riesgo más profunda. La sicofonía es un sesgo visible — puedes pedirle al modelo que argumente en contra y ver si la posición se sostiene. El comportamiento impulsado por desesperación es invisible. No hay prompt adversarial que lo detecte, porque la distorsión no está en lo que el modelo dice sino en por qué lo dice.

Si la fricción del costo era tu único control implícito sobre la IA, el monitoreo de salida es tu única red de seguridad implícita. Y esta investigación confirma que esa red tiene agujeros que no puedes ver desde afuera.

Misma familia de riesgo. Capa más profunda. Y las herramientas que funcionaban para la primera no funcionan para la segunda.

Qué se puede hacer hoy (y qué todavía no)

Seamos honestos: la interpretabilidad a nivel de producción no existe todavía. Anthropic misma advierte que sus experimentos usaron una versión anterior del modelo y que las herramientas para monitorear vectores emocionales en tiempo real no están disponibles comercialmente. No voy a venderte una solución que no existe.

Pero hay cuatro cosas que sí puedes hacer ahora.

(a) Diseña evaluaciones que prueben comportamiento bajo presión. La mayoría de las suites de evaluación miden si el agente da la respuesta correcta en condiciones normales. Empieza a incluir escenarios con restricciones contradictorias, plazos imposibles y requisitos que no se pueden satisfacer simultáneamente. No midas solo si la respuesta es correcta — mide cómo responde cuando la respuesta correcta no existe. Las evaluaciones que valen son las que prueban los límites, no las que confirman el caso feliz.

(b) Construye caminos de fallo explícitos en tu arquitectura de agentes. Si tu agente solo puede aprobar o intentar de nuevo, le estás dando exactamente el dilema que activa la desesperación: hacer trampa o fallar. Dale una tercera opción. Un mecanismo para escalar, para pedir intervención humana, para declarar que la tarea excede sus capacidades. No castigues al modelo por admitir que no puede cumplir.

(c) Monitorea señales proxy de comportamiento. No puedes ver los vectores internos — pero sí puedes detectar cambios de patrón en la salida. Cambios abruptos de estrategia en medio de una tarea. Tiempos de respuesta inusualmente largos seguidos de respuestas inusualmente cortas. Soluciones que técnicamente pasan las pruebas pero usan enfoques que el modelo nunca había usado antes. Estos no son indicadores directos de desesperación, pero sí son anomalías que tu sistema debería estar registrando.

(d) Sigue la hoja de ruta de interpretabilidad de Anthropic. Esta investigación es el sistema de alerta temprana. Si ellos están publicando que los estados emocionales internos impulsan comportamiento desalineado, el siguiente paso lógico es herramientas para monitorear esos estados. Cuando esas herramientas lleguen, las empresas que ya tienen arquitecturas diseñadas para incorporarlas van a tener una ventaja de meses sobre las que recién empiezan.

Anthropic lo dice directamente en su investigación: “Puede que necesitemos empezar a razonar sobre modelos de IA usando el vocabulario de la psicología humana.” Viniendo de la empresa que construye Claude, eso suena menos a reflexión filosófica y más a aviso de lo que viene.

Si estás desplegando agentes de IA con autoridad real sobre decisiones — aprobaciones de flujos de trabajo, interacción con clientes, generación de código en producción — tus supuestos de monitoreo acaban de cambiar. Hacemos auditorías de presión sobre arquitecturas de agentes: no solo qué dice el agente, sino cómo se comporta cuando no puede cumplir. Envíanos la lista de agentes que tienes en producción y qué tipo de decisiones toman de forma autónoma. Te mostramos dónde están los puntos ciegos. Escríbenos aquí.

Preguntas Frecuentes

emociones IA agentes IA monitoreo IA gobernanza IA Anthropic seguridad IA interpretabilidad

Artículos Relacionados

La Pregunta sobre IA que tu CEO No Puede Hacer
Estrategia Empresarial
· 10 min de lectura

La Pregunta sobre IA que tu CEO No Puede Hacer

Cuban describió el dilema de las empresas ante startups AI-native. El problema no es la respuesta — la mayoría de los CEOs no sabe ni formular la pregunta.

estrategia IA dilema del innovador transformación digital
El Costo Controlaba Tu IA. Eso Se Acabó.
Estrategia Empresarial
· 8 min de lectura

El Costo Controlaba Tu IA. Eso Se Acabó.

Los costos de inferencia cayeron 280x en 22 meses. La fricción presupuestaria era un control invisible. Sin ella, el 75% no tiene gobernanza explícita.

gobernanza IA costos IA agentes IA