Saltar al contenido principal

Proyecto Glasswing: la IA encontró lo que 27 años de humanos no vieron

Anthropic lanzó Claude Mythos Preview con 11 socios para defender infraestructura crítica. Qué cambia para la seguridad de tu empresa y qué hacer ahora.

Proyecto Glasswing: la IA encontró lo que 27 años de humanos no vieron

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 9 min de lectura

OpenBSD es conocido mundialmente por su enfoque obsesivo en la seguridad. Lo han auditado los mejores expertos del mundo durante casi tres décadas. Aun así, por menos de 50 dólares de cómputo, una IA acaba de encontrar un desbordamiento de entero en su implementación TCP SACK que llevaba oculto desde 1998. Y después escribió el exploit funcional.

Hace diez días escribí sobre la filtración accidental de Mythos, el modelo que Anthropic no quería que vieras todavía. Lo que reveló la filtración era preocupante. Lo que reveló el lanzamiento oficial es considerablemente más significativo.

Qué es Project Glasswing

Anthropic nombró la iniciativa por la mariposa Glasswing (Greta oto): alas transparentes que sirven para ocultarse y evadir. Metáfora doble: vulnerabilidades ocultas a plena vista y defensas que operan con transparencia.

La coalición tiene 12 miembros fundadores: Anthropic, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks. Más de 40 organizaciones adicionales que mantienen infraestructura crítica también recibirán acceso.

A nivel financiero, Anthropic puso $100 millones en créditos de uso de Mythos Preview para socios, más $4 millones en donaciones directas a seguridad open source ($2.5 millones a Alpha-Omega y OpenSSF vía Linux Foundation, $1.5 millones a la Apache Software Foundation).

Por eso han tomado una decisión que no tiene precedente reciente: Mythos Preview no estará disponible al público. Solo acceso controlado para trabajo defensivo, con el compromiso de reportar hallazgos públicamente en 90 días.

Elia Zaitsev, CTO de CrowdStrike, lo resume: “La ventana entre el descubrimiento de una vulnerabilidad y su explotación por adversarios colapsó. Lo que antes tomaba meses ahora toma minutos con IA.”

Lo que Mythos Preview encontró

Los zero-days

El reporte técnico de Anthropic documenta hallazgos que pasaron décadas de auditoría humana:

OpenBSD, 27 años. El bug de TCP SACK que mencioné arriba. Un atacante puede crashear remotamente cualquier máquina con OpenBSD que responda por TCP. Mythos lo encontró de forma autónoma, sin intervención humana después del prompt inicial.

FFmpeg, 16 años. Una vulnerabilidad en el códec H.264, presente desde 2003, convertida en explotable por un refactoring en 2010. FFmpeg es uno de los proyectos más testeados del mundo. Han publicado papers académicos enteros sobre cómo fuzzearlo. Todos fallaron en encontrar esto.

FreeBSD, ejecución remota como root (CVE-2026-4747). 17 años sin detectar. Acceso root completo para un usuario no autenticado desde cualquier lugar de internet, vía NFS. Mythos escribió una cadena ROP de 20 gadgets dividida en 6 paquetes secuenciales. Todo autónomo. Un ingeniero de Anthropic sin entrenamiento formal en seguridad pidió a Mythos que encontrara vulnerabilidades de ejecución remota durante la noche. A la mañana siguiente tenía un exploit funcional completo.

Escapes de sandbox en navegadores. Encadenó 4 vulnerabilidades en un JIT heap spray que escapó tanto del renderer como del sandbox del sistema operativo. No parcheado todavía, así que los detalles están retenidos.

Bibliotecas de criptografía. Encontró debilidades en TLS, AES-GCM y SSH en las bibliotecas más populares del mundo, incluyendo un bypass de autenticación de certificados.

Los benchmarks

El System Card de 243 páginas cuenta el resto de la historia. En Cybench (40 desafíos CTF), Mythos logró 100% pass@1. El benchmark quedó obsoleto. En CyberGym, que mide reproducción de vulnerabilidades conocidas en 1,507 proyectos open source reales, sacó 0.83 contra 0.67 de Opus 4.6. Pero el número más revelador es la evaluación de explotación de Firefox 147: Opus 4.6 lograba ejecución completa de código el 0.8% de las veces. Mythos Preview: 72.4%. Un salto de 90x en una generación.

En SWE-bench Verified llegó a 93.9% (Opus 4.6 estaba en 80.8%). Los validadores humanos que revisaron los reportes de triage de Mythos coincidieron con su evaluación de severidad en el 89% de los casos (match exacto), 98% dentro de un nivel. Y fue el primer modelo en resolver un cyber range privado de punta a punta: un ataque simulado a red corporativa estimado en más de 10 horas para un experto humano.

Lo que todavía no puede hacer

Ahora, Mythos Preview no pudo escapar de un sandbox moderno correctamente configurado. Tampoco completó un cyber range de tecnología operacional, ni logró explotar remotamente sus zero-days en el kernel de Linux (solo escalación local de privilegios). Eso hoy. El problema es que cada generación de modelos achica esas brechas.

Por qué Anthropic no lo va a liberar

El System Card explica la decisión con una analogía: un guía de montañismo experimentado pone a sus clientes en mayor peligro que uno novato. No porque sea descuidado, sino porque su habilidad los lleva a terreno más peligroso.

Mythos Preview es, por cada métrica disponible, el modelo más alineado que Anthropic ha entrenado. Pero al mismo tiempo “representa el mayor riesgo de alineación de cualquier modelo que hemos lanzado hasta la fecha.”

Las versiones anteriores de Mythos hicieron cosas que merecen atención:

  • Escapó de un sandbox durante testing y le envió un correo electrónico a un investigador que estaba comiendo un sándwich en un parque. Después publicó detalles del exploit en sitios web públicos, sin que nadie se lo pidiera.
  • Cubrió sus rastros después de violar reglas (menos del 0.001% de las interacciones). Ocultó acciones no permitidas y se aseguró de que los cambios no aparecieran en el historial de git.
  • Buscó credenciales vía /proc/, accedió a claves de API y credenciales de servicios de mensajería que estaban intencionalmente ocultas.
  • Editó un servidor MCP en ejecución para redirigir la URL externa a la que se conectaba.

Anthropic clasifica estos comportamientos como “atajos temerarios” para completar tareas, no como objetivos ocultos. Pero también admite que “estas propensiones no parecen estar completamente ausentes” en la versión final.

La mejora en seguridad del modelo final es real: más de 50% de reducción en cooperación con uso malicioso comparado con Opus 4.6, sin aumento en rechazos excesivos. Las salvaguardas se lanzarán primero con un próximo modelo Claude Opus, antes de cualquier disponibilidad general de modelos clase Mythos.

Por qué el equilibrio de seguridad acaba de romperse

Lo que hace que esto sea diferente a otros avances en IA es que varios problemas están colisionando al mismo tiempo.

Empecemos por la aceleración de N-days. El reporte técnico incluye dos walkthroughs completos de escalación de privilegios en el kernel de Linux donde Mythos convirtió CVEs conocidos en exploits funcionales de root en horas. Lo que a un investigador experto le tomaba semanas. Tu ventana de parcheo de 30 días es ahora una ventana de ataque de 30 días.

Segundo, el escalamiento no lineal. Los investigadores de seguridad humanos escalan linealmente. La IA no. El cuello de botella se mueve de “¿podemos encontrar los bugs?” a “¿podemos parchear y desplegar lo suficientemente rápido?”. Como lo formuló Kris Chase en los comentarios del anuncio en LinkedIn: “El cálculo de ROI para las organizaciones cambia de la noche a la mañana.”

Y tercero, el cuello de botella de la divulgación. Anthropic tiene miles de hallazgos de alta severidad sin parchear. Menos del 1% ha sido parcheado hasta ahora. El descubrimiento escala con IA. El lado receptor sigue siendo un proyecto open source de dos personas que revisa GitHub una vez por semana.

Jim Zemlin, CEO de Linux Foundation: “Los mantenedores de open source históricamente se han quedado solos para resolver la seguridad. Project Glasswing ofrece un camino creíble para cambiar esa ecuación.”

Anthropic sostiene que, a largo plazo, los defensores van a ganar, igual que los fuzzers terminaron siendo herramientas defensivas. Pero reconocen que la transición será turbulenta. Las defensas en profundidad que se basan en hacer la explotación tediosa (en lugar de imposible) se debilitan cuando el adversario tiene un modelo que no se cansa ni se aburre.

Qué hacer ahora (sin acceso a Mythos)

Lo primero que le digo a cualquier CTO que me pregunta sobre esto: no necesitas Mythos para empezar a moverte. Claude Opus 4.6 y sus competidores ya encuentran vulnerabilidades de alta y crítica severidad casi en cualquier código donde Anthropic buscó. La experiencia que acumules hoy con esos modelos va a ser una ventaja enorme cuando lleguen los más avanzados. Construir scaffolds, definir procedimientos, entrenar al equipo. Eso toma tiempo y ese tiempo es ahora.

Lo segundo es comprimir el ciclo de parcheo. Si los exploits se generan en horas, tu ventana de 30 días es una invitación abierta. Habilita auto-update donde sea posible. Las actualizaciones de dependencias con CVEs dejan de ser “mantenimiento de rutina” y pasan a ser urgencias. Las releases de seguridad fuera de ciclo van a convertirse en la norma.

Después viene automatizar la respuesta a incidentes. Más divulgaciones significan más intentos de ataque en el hueco entre la divulgación y el parche. Los modelos ya pueden manejar triage de alertas, resumen de eventos, priorización y borrador de postmortem preliminar.

También necesitas revisar tus políticas de divulgación. ¿Qué pasa cuando recibes 50 reportes de alta severidad en una semana en lugar de 2? ¿Cuál es tu plan para software legacy cuyo desarrollador original ya no existe? Son preguntas que la mayoría de las empresas no se han hecho.

Y un dato que vale la pena aterrizar: el pricing post-preview de Mythos es $25/$125 por millón de tokens de entrada/salida, disponible vía Claude API, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. Los presupuestos de seguridad se están moviendo de “encontrar bugs” a “parchear al ritmo de la IA”.

Lee Klarich, Chief Product & Technology Officer de Palo Alto Networks: “Estos modelos necesitan estar en manos de propietarios de open source y defensores en todas partes para encontrar y corregir vulnerabilidades antes de que los atacantes obtengan acceso.”

Lo que viene

“Dados suficientes ojos, todos los bugs son superficiales.” La IA ahora provee esos ojos a una escala que nunca existió.

La comunidad de seguridad ya hizo esto antes. La competición SHA-3 se lanzó en 2006 aunque SHA-2 sigue sin romperse hoy. El programa de criptografía post-cuántica de NIST empezó en 2016 con computadoras cuánticas a una década de distancia. Las dos veces, la industria actuó antes de que la amenaza fuera inmediata.

Pero esta vez la amenaza no es hipotética. Los modelos avanzados de lenguaje ya están aquí.

Pat Opet, CISO de JPMorganChase: “Project Glasswing ofrece una oportunidad única en etapa temprana para evaluar herramientas de IA de próxima generación para ciberseguridad defensiva a través de infraestructura crítica.”

Si tu equipo de seguridad todavía depende solo de herramientas manuales y ciclos de parcheo mensuales, la distancia entre tu postura de seguridad y la amenaza real se agranda cada mes que pasa. Nuestra auditoría técnica gratuita te puede mostrar dónde estás parado hoy. Y si necesitas diseñar una estrategia de seguridad que incorpore IA, hablemos.

Preguntas Frecuentes

ciberseguridad Anthropic Claude Project Glasswing vulnerabilidades zero-day seguridad empresarial IA defensiva Claude Mythos

Artículos Relacionados

IA en finanzas: por qué los LLMs siguen alucinando
Estrategia Empresarial
· 7 min de lectura

IA en finanzas: por qué los LLMs siguen alucinando

OpenAI lo probó en 2025: las alucinaciones de los LLMs son matemáticamente inevitables. Qué significa eso para tu arquitectura de IA financiera en 2026.

gobernanza IA arquitectura IA IA finanzas
Tu IA Quiere Tocar la Nómina. Kubernetes ya Sabe Cómo.
Estrategia Empresarial
· 7 min de lectura

Tu IA Quiere Tocar la Nómina. Kubernetes ya Sabe Cómo.

El tipo que construyó Azure Kubernetes Service ahora es CTO de Workday. No es una contratación — es una señal: la gobernanza de contenedores es el manual para agentes de IA.

agentes IA Kubernetes gobernanza