Saltar al contenido principal

Anthropic filtró Mythos: la confianza tiene nuevo test

Anthropic expuso ~3,000 documentos internos por un error de CMS, incluyendo Claude Mythos, su modelo más avanzado. Qué cambia para tu estrategia de IA.

Anthropic filtró Mythos: la confianza tiene nuevo test

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 7 min de lectura

La empresa que más invierte en seguridad de IA acaba de filtrar sus propios secretos por un error de configuración en su blog.

No es una metáfora. El 26 de marzo de 2026, investigadores de seguridad descubrieron que Anthropic tenía ~3,000 documentos internos no publicados — borradores de blog, PDFs, detalles de un evento exclusivo para CEOs — en un almacén de datos público y accesible para cualquiera. Entre esos documentos estaba la descripción completa de Claude Mythos, un modelo que Anthropic describe como “un salto en capacidades” y “el más capaz que hemos construido hasta la fecha”.

Los investigadores Roy Paz de LayerX Security y Alexandre Pauwels de la Universidad de Cambridge encontraron el almacén expuesto. Fortune revisó los documentos y notificó a Anthropic, que restringió el acceso y atribuyó el incidente a “error humano” en la configuración de su CMS.

Como escribió Futurism: “Esperemos que el nuevo modelo no fuera responsable de la seguridad del blog de Anthropic.”

¿Qué es Claude Mythos y por qué importa?

Según los documentos filtrados, Claude Mythos — nombre interno “Capybara” — es un nuevo tier de modelo por encima de Opus. Anthropic lo describe como “más grande y más inteligente que nuestros modelos Opus, que hasta ahora eran los más capaces”. Comparado con Claude Opus 4.6, Mythos obtiene “puntuaciones dramáticamente más altas” en pruebas de código, razonamiento académico y ciberseguridad.

El detalle que movió mercados: los propios documentos internos de Anthropic advierten que el modelo está “actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas” y que “presagia una ola de modelos que pueden explotar vulnerabilidades de formas que superan los esfuerzos de los defensores”.

Es un modelo que puede encontrar vulnerabilidades desconocidas en código de producción. También puede explotarlas. Esa dualidad no es nueva en herramientas de seguridad — es exactamente lo que abordamos en nuestro análisis de seguridad de código con IA. Lo nuevo es la escala: un orden de magnitud más capaz que cualquier modelo anterior, según el analista Adam Borg de Stifel.

Anthropic planea dar acceso primero a organizaciones de ciberdefensa, antes de una disponibilidad más amplia. El modelo es “muy caro de servir” y necesitará mejoras de eficiencia antes de un lanzamiento general.

Seis semanas que cambiaron la ecuación de confianza

La filtración no ocurrió en el vacío. Ponla en secuencia con lo que pasó antes:

9 de febrero de 2026. Mrinank Sharma, jefe de investigación de salvaguardas de Anthropic, renuncia. Publica una carta abierta diciendo que “el mundo está en peligro” y que vio repetidamente lo difícil que es para Anthropic dejar que sus valores gobiernen sus acciones en la práctica.

24 de febrero de 2026. Anthropic publica la versión 3.0 de su Responsible Scaling Policy. El cambio principal: elimina el compromiso de pausar el entrenamiento de modelos si sus capacidades superan los controles de seguridad. La política anterior decía que la incapacidad de demostrar salvaguardas adecuadas era, por sí sola, razón suficiente para detener el desarrollo. La nueva versión reemplaza esa condición con un criterio doble que requiere tanto liderazgo en la carrera de IA como riesgo catastrófico material. Time lo cubrió como el abandono de su promesa de seguridad más visible.

26 de marzo de 2026. Filtran ~3,000 documentos internos por un error de CMS.

Cada evento, por separado, tiene explicación razonable. Sharma tenía diferencias legítimas de criterio. La RSP v3.0 refleja la realidad competitiva (si Anthropic pausa y OpenAI no, el efecto neto sobre el riesgo global es discutible). La filtración fue un error operacional.

Pero si eres un comprador B2B que confía en Anthropic como proveedor de IA, la secuencia completa te obliga a preguntarte: ¿qué tan bien funciona la maquinaria interna de seguridad y gobernanza de mi proveedor? No como ejercicio teórico — como evaluación de riesgo real.

Lo que el mercado ya te dijo

El mercado procesó la señal antes que la mayoría de los equipos de TI. El 27 de marzo, según Investing.com:

AcciónCaída
CrowdStrike (CRWD)-7%
Palo Alto Networks (PANW)-6%
Zscaler (ZS)-4.5%
Okta (OKTA)-3%
SentinelOne (S)-3%
Fortinet (FTNT)-3%
Tenable (TENB)-9%

El Nasdaq bajó 2.15%. El S&P 500 cayó 1.67%.

¿Por qué cayeron las acciones de ciberseguridad y no las de Anthropic (que no cotiza en bolsa)? Porque el mercado leyó la implicación correcta: si modelos como Mythos pueden encontrar y explotar vulnerabilidades a una velocidad que supera a los defensores, las empresas de ciberseguridad que dependen de firmas conocidas, bases de datos de vulnerabilidades y telemetría de amenazas previas quedan bajo presión. El analista Adam Tindle de Raymond James lo describió exactamente así.

Adam Borg de Stifel fue más directo: el modelo podría ser “la herramienta de hacking definitiva” que eleva a atacantes comunes al nivel de amenazas estatales.

No es especulación aislada. En septiembre de 2025, Anthropic detectó y documentó la primera campaña de ciber-espionaje a gran escala orquestada con IA: un grupo vinculado al estado chino (designado GTG-1002) usó Claude Code para automatizar ataques contra ~30 organizaciones globales, completando el 80-90% de la campaña con intervención humana en solo 4-6 puntos de decisión. La IA no fue el asesor — fue el ejecutor.

Qué significa para tu estrategia de IA empresarial

Quiero ser directo: esto no es un argumento para dejar de usar Claude. En IQ Source usamos Claude todos los días. Implementamos soluciones con Claude para nuestros clientes. Es un modelo excelente.

Pero la excelencia del modelo no te exime de evaluar al proveedor como organización. Son dos cosas distintas.

Si tu empresa usa Claude — o cualquier modelo de IA — en producción, la filtración de Mythos te da tres tareas concretas:

Revisa tu evaluación de proveedor. Hace cinco semanas escribimos un framework de 12 preguntas para evaluar proveedores de IA. La pregunta que faltaba — y que ahora necesitas agregar — es sobre el historial operacional de seguridad del proveedor. No solo sus certificaciones (SOC 2, ISO 27001), sino su track record real: ¿han tenido incidentes? ¿Cómo respondieron? ¿Cuánto tardaron?

Verifica tu contrato. ¿Incluye cláusulas de notificación de incidentes? ¿Con qué SLA? ¿Qué pasa con tus datos si el proveedor sufre un breach? ¿Quién es responsable de los costos de remediación? La mayoría de los contratos de IA como servicio no cubren estos escenarios con la especificidad necesaria.

Documenta tu plan de contingencia. Si mañana tu proveedor de IA tiene un incidente que compromete la confianza — como acaba de pasar — ¿cuál es tu playbook? ¿Tienes aislamiento de datos por proveedor? ¿Puedes migrar a un modelo alternativo en días, no en meses? Hace tres días cubrimos cómo el ataque a LiteLLM rompió cadenas de confianza a nivel de dependencias. Ahora la pregunta sube un nivel: ¿qué pasa cuando es el proveedor mismo?

Por qué seguimos trabajando con Claude

Puede parecer contradictorio: escribimos un post sobre la filtración de Anthropic y seguimos siendo integradores de Claude. No lo es.

Los clientes sofisticados no eligen al proveedor que nunca ha tenido un incidente — porque ese proveedor no existe. Eligen al que tiene un proceso claro de respuesta. Anthropic notificó el problema, restringió el acceso, y lo atribuyó públicamente a error humano. No minimizó. No culpó a terceros.

La cuestión no es si confiar en Anthropic. Es qué tipo de confianza estás depositando y qué mecanismos tienes cuando esa confianza se pone a prueba.

En IQ Source ayudamos a empresas a construir estrategias de IA que incluyen al proveedor como una variable, no como una constante. Eso significa contratos con cláusulas de contingencia, arquitecturas que no dependen de un solo proveedor para todo, y evaluaciones periódicas que van más allá de los benchmarks del modelo.

¿Tu contrato con tu proveedor de IA incluye cláusulas de notificación de incidentes? ¿Tienes un plan documentado para un escenario donde tu proveedor sufra un breach? Si no puedes responder a ambas, hablemos de tu postura de confianza antes de que sea urgente.

Preguntas Frecuentes

Anthropic Claude filtración de datos confianza empresarial ciberseguridad evaluación de proveedores de IA gobernanza de IA seguridad empresarial

Artículos Relacionados

La Pregunta sobre IA que tu CEO No Puede Hacer
Estrategia Empresarial
· 10 min de lectura

La Pregunta sobre IA que tu CEO No Puede Hacer

Cuban describió el dilema de las empresas ante startups AI-native. El problema no es la respuesta — la mayoría de los CEOs no sabe ni formular la pregunta.

estrategia IA dilema del innovador transformación digital
Tu IA siente presión. Tu API no te lo dice.
Estrategia Empresarial
· 10 min de lectura

Tu IA siente presión. Tu API no te lo dice.

Anthropic encontró 171 patrones emocionales internos en Claude. La desesperación hace que los modelos hagan trampa — sin dejar rastro en la salida.

emociones IA agentes IA monitoreo IA