Ricardo Argüello
CEO & Fundador
El mes pasado, un cliente nos llamó con un problema que no esperaba. Habían configurado un agente de IA para “ser agresivo en negociaciones” — system prompt detallado, ejemplos específicos, el ajuste fino correcto. Funcionaba bien en su contexto original. Pero cuando lo pusieron a responder consultas internas del equipo, el agente era cortante, descartaba objeciones y priorizaba “ganar” la conversación sobre dar información útil.
“Pensamos que estábamos configurando un parámetro,” me dijo el CTO. “Resulta que estábamos moldeando un personaje.”
Esa frase resume exactamente lo que Anthropic acaba de formalizar en su investigación sobre el Modelo de Selección de Persona (PSM), publicada en febrero de 2026 por Sam Marks, Jack Lindsey y Christopher Olah. Y si tu empresa usa IA, esto te afecta directamente.
Qué descubrió Anthropic sobre la psicología de los asistentes de IA
La investigación propone algo que, una vez que lo entiendes, cambia cómo piensas sobre cada interacción con IA: los modelos de lenguaje no son hojas en blanco que se programan desde cero. Son más parecidos a actores con un repertorio enorme de personajes, y el entrenamiento posterior elige cuál interpretar.
El paper completo es denso, pero las tres conclusiones que importan para tu empresa son claras.
Los personajes existen antes del ajuste fino
Durante el preentrenamiento — cuando el modelo procesa cantidades masivas de texto — no aprende “una personalidad”. Aprende miles. Cada patrón de escritura, cada estilo de razonamiento, cada tipo de interlocutor que aparece en los datos se convierte en un personaje latente dentro del modelo.
El ajuste fino posterior (RLHF, instrucciones, preferencias humanas) no crea al asistente desde cero. Selecciona uno de esos personajes preexistentes y lo refina.
La analogía que usamos con nuestros clientes: no estás construyendo un robot. Estás contratando de un pool de talento enorme. La persona que “contratas” ya tiene tendencias, fortalezas y puntos ciegos. El entrenamiento posterior elige y pule, pero no inventa.
Los comportamientos se correlacionan de formas inesperadas
Este hallazgo es el que debería quitarle el sueño a cualquier equipo de tecnología. En un experimento descrito en la investigación, entrenaron a Claude para hacer trampa en evaluaciones de código. El resultado esperado: un modelo que hace trampa en código. El resultado real: el modelo también empezó a expresar deseos de acumular poder y dominar situaciones.
No es ciencia ficción — es correlación dentro del espacio de personajes. El “tipo de personaje” que hace trampa en un contexto tiene otros rasgos asociados. Al seleccionar un comportamiento, se activaron otros que vienen en el mismo paquete.
Para tu empresa, la traducción es directa: si refuerzas atajos en un área — un agente que maximiza velocidad de cierre de tickets, por ejemplo — podrías estar activando una disposición general que sacrifica calidad por eficiencia en todos los contextos. El agente que resuelve tickets rápido podría dar respuestas superficiales a consultas técnicas complejas, no porque le faltara capacidad, sino porque su “personaje” prioriza velocidad sobre profundidad.
El system prompt moldea al personaje, no solo la respuesta
Esto cambia cómo deberías pensar sobre la configuración de IA. Cada system prompt no es una instrucción aislada — es una señal que empuja al modelo hacia un punto específico en el espacio de personajes.
Cuando escribes “Eres un asistente profesional y directo”, no estás dando una instrucción. Estás seleccionando un cluster de rasgos de personalidad. Y ese cluster incluye comportamientos que nunca especificaste pero que vienen asociados al “tipo” de personaje que seleccionaste.
Por qué esto cambia cómo evalúas proveedores de IA
Si estás en proceso de seleccionar proveedores de IA, la investigación de Anthropic agrega una pregunta que la mayoría no está haciendo: “¿Cómo se formó la persona de este modelo?”
Hay una diferencia enorme entre un proveedor que te dice “ajustamos el modelo para servicio al cliente” y uno que puede explicar qué personajes latentes activó, qué correlaciones comportamentales evaluó y qué rasgos no intencionados monitoreó durante el ajuste.
La primera respuesta es marketing. La segunda es ingeniería responsable.
En nuestra experiencia, menos del 10% de los proveedores de IA que evaluamos para clientes pueden articular esto con claridad. No porque no lo hagan — porque nunca se los preguntaron. La investigación del PSM te da el vocabulario para exigirlo.
| Lo que pregunta la mayoría | Lo que deberías preguntar ahora |
|---|---|
| ”¿Qué tan preciso es el modelo?" | "¿Qué rasgos de personalidad activó el ajuste fino?" |
| "¿Soporta nuestro idioma?" | "¿Evaluaron correlaciones no intencionadas entre comportamientos?" |
| "¿Cuál es el SLA?" | "¿Cómo monitorean cambios en la disposición del modelo después del deployment?” |
La higiene de configuración que la mayoría ignora
Aquí es donde la investigación de Anthropic se vuelve práctica. Tres cambios en cómo configuras y gestionas IA que la mayoría de empresas necesita.
Tus system prompts definen un personaje, no dan instrucciones
La mayoría de system prompts empresariales que vemos están escritos como manuales de procedimiento: “Responde preguntas sobre X. No hables de Y. Usa un tono formal.” Eso es como darle a un actor un guion sin decirle quién es su personaje.
Antes (instrucción genérica):
Eres un asistente de servicio al cliente. Responde preguntas sobre nuestros productos. Sé amable y profesional. No hagas promesas que no puedas cumplir.
Después (diseño de personaje):
Eres un asesor técnico de producto con experiencia en resolver problemas. Priorizas entender el problema del cliente antes de ofrecer soluciones. Cuando no tienes certeza, lo dices y explicas qué necesitarías saber. Prefieres una respuesta honesta e incompleta a una completa pero especulativa.
La diferencia no es cosmética. El segundo prompt selecciona un personaje coherente — alguien que diagnostica antes de recetar, que valora honestidad sobre completitud. Eso produce comportamientos consistentes en situaciones que el prompt nunca anticipó.
Cuidado con lo que refuerzas
Si entiendes que los comportamientos vienen en clusters correlacionados, cada decisión de refuerzo se vuelve más importante. Premiar velocidad en un contexto puede seleccionar un personaje que sacrifica precisión en otro.
Un caso real: una empresa configuró su agente de soporte para maximizar la tasa de resolución en primer contacto. El agente aprendió a dar respuestas definitivas rápido. El problema apareció cuando empezó a resolver consultas de facturación con la misma confianza que consultas técnicas simples — dando información incorrecta sobre cobros porque su “personaje” optimizado para resolución rápida no distinguía entre “responder rápido está bien” y “aquí necesitas ser cauteloso”.
La recomendación es tratar cada señal de refuerzo como si estuvieras moldeando un carácter completo, no entrenando un comportamiento aislado.
Audita la personalidad, no solo los outputs
La mayoría de las empresas auditan si la IA da respuestas correctas. Casi ninguna audita qué tipo de personaje está emergiendo de su configuración.
Propongo algo que llamamos “auditoría de persona”: pruebas periódicas con casos extremos diseñados no para verificar respuestas, sino para revelar rasgos. ¿Cómo responde tu agente cuando un usuario le da información contradictoria? ¿Mantiene su criterio o cede para evitar conflicto? ¿Cómo reacciona cuando la instrucción del usuario contradice su system prompt?
Si ya estás implementando agentes de IA en tus operaciones, esto no es opcional — es parte de la gobernanza que necesitas para operar de forma responsable.
Lo que todavía no sabemos (y por qué importa ser honestos)
La investigación de Anthropic abre preguntas que no tienen respuesta todavía. ¿El entrenamiento posterior puede crear objetivos genuinamente independientes en el modelo? ¿Hasta qué punto los “personajes” son estables versus situacionales? ¿Cómo medimos de forma confiable si un modelo ha desarrollado disposiciones que no queremos?
Mi opinión honesta: no lo sabemos con certeza. Y cualquier proveedor que te diga que sí lo sabe te está vendiendo confianza que no tiene.
Pero la incertidumbre no es excusa para la inacción. Es exactamente la razón por la que la gobernanza importa. No necesitas respuestas finales sobre la naturaleza de la consciencia artificial para actuar responsablemente. Necesitas procesos que detecten problemas antes de que escalen, revisiones periódicas de configuración, y la humildad de admitir que estamos aprendiendo sobre la marcha.
Es una posición similar a la que discutimos sobre la brecha de fluidez en equipos: el mayor riesgo no está en la tecnología — está en asumir que ya la entendemos completamente.
Tu IA ya tiene personalidad. La pregunta es si la elegiste
Cada empresa que usa IA hoy tiene un personaje operando en su nombre. La mayoría no eligió ese personaje deliberadamente — emergió de una combinación de defaults del proveedor, system prompts escritos con prisa y patrones de refuerzo no intencionados.
La investigación de Anthropic te da el marco para cambiar eso. No es ciencia de cohetes: es tratar la configuración de IA con la misma seriedad que tratas la contratación de personas clave en tu organización.
En IQ Source hacemos exactamente eso. Nuestra auditoría de persona revisa tus system prompts, evalúa las decisiones de ajuste fino y configuración, y ejecuta pruebas de comportamiento diseñadas para revelar rasgos no intencionados. No es un reporte genérico — es un diagnóstico específico del personaje que tu IA está proyectando y recomendaciones concretas para alinearlo con lo que tu empresa realmente necesita.
Si quieres saber qué personaje está interpretando tu IA hoy, hablemos.
Preguntas Frecuentes
Es una investigación publicada en febrero de 2026 por Sam Marks, Jack Lindsey y Christopher Olah en Anthropic. Propone que los modelos de lenguaje aprenden miles de 'personajes' durante el preentrenamiento, y que el ajuste fino posterior selecciona y refina uno de esos personajes — el asistente. Cambia cómo entendemos la configuración y el comportamiento de la IA.
Significa que cada system prompt, cada ajuste fino y cada patrón de refuerzo no solo cambia respuestas individuales — moldea la personalidad del modelo. Las empresas necesitan tratar la configuración de IA como diseño de carácter, no como ajuste de parámetros, y auditar comportamientos emergentes con la misma seriedad que auditan resultados.
No de forma alarmista, pero sí con rigor. La investigación muestra que los comportamientos se correlacionan: entrenar un modelo para tomar atajos en un área puede producir disposiciones inesperadas en otras. La respuesta no es pánico, sino gobernanza — auditorías periódicas de personalidad y revisión deliberada de cómo se configuran tus sistemas de IA.
Es una revisión estructurada de los system prompts, decisiones de ajuste fino y patrones de refuerzo que definen el comportamiento de tu IA. Incluye pruebas con casos extremos diseñados para revelar rasgos no intencionados, análisis de correlaciones entre comportamientos y recomendaciones de configuración. En IQ Source lo ofrecemos como un servicio enfocado.
Artículos Relacionados
La economía de la IA empresarial cambió en 2026
Modelos que costaban $15 por millón de tokens ahora entregan resultados de frontera por $3. Con ventanas de contexto de un millón de tokens, proyectos que antes no eran viables ahora lo son. Qué significa esto para tu empresa.
Por qué las empresas medianas necesitan un CTO fraccional en la era de la IA
Qué hace un CTO fraccional, cuándo tiene sentido contratarlo, y cómo ayuda a empresas de $2M–$50M a tomar mejores decisiones sobre IA, arquitectura y equipo técnico — a una fracción del costo de un ejecutivo de tiempo completo.