Saltar al contenido principal

Brecha Mercor: 4 TB de datos biométricos que no se rotan

Mercor, la startup de IA de $10B que entrena modelos para OpenAI y Anthropic, cayó por el ataque a LiteLLM. Lapsus$ reclama video-entrevistas, escaneos faciales y pasaportes de 30,000+ contratistas.

Brecha Mercor: 4 TB de datos biométricos que no se rotan

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

IA y Automatización 11 min de lectura

Hace seis días escribimos sobre el ataque a LiteLLM. Explicamos cómo TeamPCP comprometió un escáner de seguridad para envenenar un proxy de API keys de IA con 97 millones de descargas mensuales. Dijimos: audita tu cadena de confianza. Mapea cada intermediario.

Hoy sabemos el nombre de la primera víctima de $10B.

Mercor confirmó el 31 de marzo que fue víctima del ataque a la cadena de suministro de LiteLLM. Según Neowin, la empresa dijo ser “una de miles de empresas” afectadas. El grupo Lapsus$ reclama 4 TB de datos robados.

Ya cubrimos el mecanismo del ataque. Lo que faltaba era ver las consecuencias reales — y entender que hay un tipo de dato robado que no tiene remediación posible.

Qué tiene Mercor que no tiene tu empresa promedio

Mercor es una startup de reclutamiento de IA fundada en 2023 por tres jóvenes de 22 años. En octubre de 2025, levantó una Serie C de $350 millones liderada por Felicis Ventures que la valoró en $10 mil millones. Su negocio: conectar contratistas especializados — científicos, médicos, abogados, ingenieros — con empresas que necesitan entrenar modelos de IA. Entre sus clientes: OpenAI, Anthropic y Google DeepMind.

Para verificar la identidad de esos contratistas, Mercor recolecta video-entrevistas con datos de cara y voz, documentos KYC y pasaportes. Gestiona más de 30,000 contratistas y procesa $2 millones en pagos diarios.

Esa combinación de datos es lo que hace que esta brecha sea diferente de un robo de credenciales típico. No es una base de datos de emails y contraseñas hasheadas. Es un repositorio que contiene, según CybersecurityNews citando las reclamaciones de Lapsus$: 939 GB de código fuente de la plataforma, 211 GB de registros de base de datos con currículos y datos personales, y cerca de 3 TB de archivos almacenados que incluyen video-entrevistas, escaneos faciales y documentos de identidad.

Una empresa. Treinta mil personas. Todo en un solo lugar.

La cadena se rompió exactamente donde dijimos

En nuestro artículo del 25 de marzo sobre el ataque a LiteLLM, escribimos:

¿Cuándo fue la última vez que alguien en tu equipo verificó que pip install paquete realmente instala el código del repositorio de GitHub?

Y:

Si tu postura de seguridad para infraestructura de IA es “instalamos el paquete popular y seguimos adelante”, estás en la mayoría. Y la mayoría acaba de recibir un golpe.

Mercor usaba LiteLLM para gestionar conexiones a múltiples proveedores de IA — OpenAI, Anthropic y otros — a través de una interfaz unificada. Cuando TeamPCP envenenó las versiones 1.82.7 y 1.82.8 en PyPI, el malware entró como dependencia legítima. No hizo falta que nadie lo importara manualmente. El archivo .pth se ejecutaba cada vez que Python arrancaba.

No voy a repetir la anatomía del ataque — está completa en el artículo de LiteLLM. Lo que importa aquí es la escala de la consecuencia: una sola dependencia comprometida llevó al acceso completo a la infraestructura de una empresa de $10B.

Mercor dijo ser “una de miles.” Eso significa que el blast radius del ataque a LiteLLM todavía se está materializando. Las empresas que no auditaron su cadena de confianza en la última semana están esperando a ser las próximas en confirmar.

Datos biométricos: la brecha que no tiene parche

Cuando un atacante roba credenciales, hay un procedimiento claro:

Tipo de datoRemediaciónTiempo
ContraseñasRotarMinutos
API keysRevocar y reemitirMinutos
Tokens de sesiónInvalidarSegundos
Tarjetas de créditoCancelar y reemitirDías
Escaneo facialPermanente
Grabación de vozPermanente
Foto de pasaportePermanente

Las primeras cuatro filas tienen columnas llenas. Las últimas tres, no. No existe un botón de “rotar” para tu cara.

Si Lapsus$ tiene 3 TB de archivos almacenados que incluyen video-entrevistas usadas para verificación de identidad, los contratistas afectados enfrentan un problema que ningún equipo de seguridad puede remediar. Un escaneo facial combinado con una grabación de voz es exactamente el material que se necesita para generar deepfakes convincentes. Ya no estamos hablando de phishing con emails falsos — estamos hablando de videollamadas donde “la persona” que habla se ve y suena exactamente como el contratista real.

Y no son contratistas cualquiera. Son científicos, médicos y abogados que trabajan con los laboratorios de IA más importantes del mundo. Sus identidades comprometidas no solo son un problema para ellos — son un vector de ataque contra las organizaciones para las que trabajan.

Piensa en el escenario concreto: un contratista de Mercor trabaja entrenando modelos para un laboratorio de IA. Un atacante tiene su video-entrevista con datos biométricos, su currículum completo, y potencialmente su pasaporte. Con eso puede generar un deepfake convincente, acceder a los sistemas del laboratorio usando la identidad del contratista, y comprometer el pipeline de entrenamiento de modelos. La cadena va de Mercor al contratista, del contratista al laboratorio, del laboratorio al modelo, del modelo a millones de usuarios.

La brecha de contraseñas más grande del mundo se resuelve con un reset masivo y una nota de prensa. Una brecha de datos biométricos no tiene ese lujo.

Empresas de IA como blancos de alto valor

Mercor no es solo una empresa con mala higiene de dependencias. Es un nodo central en la cadena de suministro de datos de IA.

Las empresas de IA son blancos excepcionalmente valiosos porque combinan factores que no existen en empresas convencionales. Los datos que manejan no son PII estática — son el material de entrenamiento que define cómo se comportan los modelos. Si un atacante accede a esos datos, puede entender y manipular el comportamiento de modelos que usan millones de personas.

El problema es también la concentración de talento. Mercor agrupa a 30,000+ especialistas, muchos con acceso a información propietaria de múltiples laboratorios de IA. Sus perfiles profesionales, combinados con datos de identidad, crean un mapa de quién sabe qué en todo el ecosistema.

Y después está la interconexión. Mercor trabaja con OpenAI, Anthropic y Google DeepMind. Una brecha en Mercor no se queda en Mercor — es una brecha en la periferia de cada laboratorio de IA con el que trabaja.

Este es un patrón que hemos visto antes en otros sectores: el ataque no va al castillo directamente, va al proveedor de servicio que tiene las llaves de varios castillos a la vez. En el mundo de IA, las plataformas de reclutamiento y entrenamiento de contratistas son exactamente ese proveedor. Y la mayoría no tiene la postura de seguridad que el valor de sus datos requiere.

Lo que se confirma vs. lo que se alega

Cada vez que un incidente de seguridad se viraliza en redes sociales, la narrativa crece más rápido que los hechos verificados. Y en este caso la distancia entre lo confirmado y lo que circula en X es significativa.

Lo que sabemos con certeza: Mercor confirmó públicamente la brecha y la vinculó al ataque a LiteLLM (TechCrunch). La empresa dijo ser “una de miles de empresas” afectadas (Neowin). Declaró que actuó “con prontitud” y contrató expertos forenses de terceros. El mecanismo del ataque a LiteLLM fue verificado independientemente como CVE-2026-33634, con una puntuación CVSS de 9.4. Y el grupo Lapsus$ reclamó responsabilidad públicamente, alegando poseer 4 TB de datos (CybersecurityNews, TechStartups).

Ahora, lo que no se ha confirmado — y que circula como si fuera un hecho.

La afirmación más repetida es que los desarrolladores de Mercor entregaron credenciales de producción a un chatbot de IA. Viene de un post viral en X de Aakash Gupta. TechStartups lo matizó: “publicaciones vinculadas al incidente sugieren que un desarrollador pudo haber expuesto credenciales de producción a través de un asistente de código de IA.” Pero ni TechCrunch, ni CybersecurityNews, ni la propia Mercor han confirmado ese detalle.

Lo mismo aplica al desglose específico de datos (939 GB código, 211 GB base de datos, ~3 TB archivos), al supuesto acceso completo a la VPN de Tailscale, y a los tipos exactos de archivos robados. Todo eso proviene de las reclamaciones de Lapsus$, no de confirmaciones de Mercor.

¿Por qué dedico una sección completa a esto? Porque las decisiones de seguridad deben basarse en hechos verificados. Lo que sí es un hecho: Mercor fue comprometida vía LiteLLM. Lo que aún no se verifica: la escala exacta y el vector específico por el cual las credenciales se expusieron.

El patrón que se repite: agentes de IA e instalaciones sin auditar

Independientemente de si la alegación específica sobre credenciales en un chatbot de IA es cierta para Mercor, el patrón general es real y está documentado.

En nuestro artículo sobre el peor día de npm, citamos a Andrej Karpathy: “No puedo sentir que estoy jugando ruleta rusa con cada pip install o npm install (que los LLMs también ejecutan libremente en mi nombre).”

Los agentes de IA y asistentes de código están instalando dependencias sin revisión de diffs, resolviendo a la versión más reciente por defecto, y ejecutando a velocidad de máquina sin que nadie verifique qué entra al entorno. Ese escenario convierte un ataque de supply chain en una brecha a escala industrial.

El riesgo no es hipotético. La semana pasada cubrimos cómo el ataque a axios afectó a cualquiera que ejecutó npm install en una ventana de tres horas. Con LiteLLM fue pip install. En ambos casos, un agente de IA ejecutando instalaciones automáticas habría introducido el malware sin que ningún humano lo revisara.

La combinación de dependencias envenenadas + agentes de IA con permisos amplios + credenciales de producción accesibles es exactamente la receta para lo que le pasó a Mercor. No necesitas saber si fue un chatbot específico el que expuso las credenciales. Solo necesitas saber que esa configuración existe en tu equipo — y que el siguiente LiteLLM ya está en preparación.

Lo que cambia en tu plan de respuesta a incidentes

Nuestro artículo de LiteLLM cubrió prevención: fijar versiones, aislar credenciales, auditar la cadena de confianza. Este artículo es sobre lo que pasa después. Ahora que existe una víctima nombrada con datos biométricos comprometidos, tu plan de respuesta a incidentes necesita cubrir escenarios que probablemente no contempla.

Haz un inventario de datos biométricos. ¿Tu empresa recolecta video-entrevistas, escaneos faciales o documentos de identidad de candidatos o contratistas? ¿Los guardas tú o un tercero? Si usas plataformas como Mercor, Turing, Toptal o cualquier marketplace de contratistas de IA, necesitas saber exactamente qué datos biométricos tienen sobre tu gente. No puedes responder a una brecha si no sabes qué estaba expuesto.

Después, mapea el riesgo de concentración. ¿Cuántas de tus dependencias de IA pasan por un solo paquete o proveedor? Si un componente comprometido da acceso a toda tu infraestructura — como aparentemente ocurrió con Mercor — tu blast radius es ilimitado. En IQ Source mapeamos las dependencias críticas de cada cliente y evaluamos qué pasa si cada una se compromete individualmente.

Hay un punto que muchos equipos pasan por alto: los datos de tus contratistas en plataformas de terceros. Si tus contratistas están en Mercor u otra plataforma similar, sus datos ya no están solo bajo tu control. Una brecha en la plataforma es una brecha en tu información de personal.

También necesitas revisar tus obligaciones de notificación para datos biométricos, que son más estrictas de lo que la mayoría cree. GDPR clasifica los datos biométricos como datos sensibles con protecciones reforzadas. CCPA tiene categorías específicas para información biométrica. En México, la LFPDPPP exige consentimiento expreso. Si tu empresa opera en América Latina y usa plataformas que recolectan datos biométricos de tu gente, no cumplir con la notificación tiene consecuencias legales directas.

Por último, una pregunta que todavía casi nadie se hace: la procedencia de datos de entrenamiento de IA. Si usas modelos entrenados con datos de contratistas de una plataforma comprometida, ¿el modelo sigue siendo confiable? Los reguladores van a preguntar. Si los datos de entrenamiento provienen de una fuente comprometida, la integridad del modelo es una pregunta abierta.


Si tu empresa usa plataformas de reclutamiento de IA, marketplaces de contratistas, o cualquier servicio que recolecta video-entrevistas, documentos de identidad o datos biométricos de tus equipos o candidatos — necesitas saber exactamente qué tienen, dónde lo guardan, y qué pasa cuando se comprometen.

Hacemos un mapeo de exposición de datos de identidad en 90 minutos: qué plataformas de terceros tienen datos biométricos de tu gente, qué obligaciones de notificación tienes, y qué no se puede remediar si esos datos se filtran. Escríbenos en contacto.

Preguntas Frecuentes

seguridad de IA cadena de suministro de software datos biométricos Mercor LiteLLM respuesta a incidentes privacidad de datos

Artículos Relacionados

La IA eliminó la ejecución. El cuello de botella eres tú
IA y Automatización
· 11 min de lectura

La IA eliminó la ejecución. El cuello de botella eres tú

Simon Willison queda agotado a las 11am dirigiendo agentes. Andreessen dice que la ejecución murió. El cuello de botella de tu empresa cambió de lugar.

agentes de IA simon-willison liderazgo tecnológico
Ataque a LiteLLM: tu cadena de confianza de IA, rota
IA y Automatización
· 8 min de lectura

Ataque a LiteLLM: tu cadena de confianza de IA, rota

LiteLLM, el proxy de API keys de IA con 97 millones de descargas mensuales, fue envenenado vía PyPI. Tu escáner de seguridad fue el vector de entrada.

seguridad de IA cadena de suministro de software LiteLLM