La factura de IA viene de donde no estás mirando
Ricardo Argüello — 18 de mayo de 2026
CEO & Fundador
Resumen general
The Register publicó esta misma mañana que un cliente de Google Cloud amaneció con $18,392 en cargos contra un presupuesto configurado en $10 AUD, con nueve mecanismos de seguridad apagados por defecto. Es el tercer incidente público de factura de IA en 14 días. El patrón debajo no es uso descontrolado de agentes. Es superficie: credenciales dormidas que el proveedor reactivó, cambios silenciosos de tarifa, y ruido de contexto que nadie está mirando. La factura no viene del modelo. Viene de tres lugares fuera de tu campo de visión.
- El 25 de febrero Truffle Security publicó que 2,863 llaves AIza vivas obtuvieron acceso a Gemini cuando Google habilitó la API en proyectos existentes. El 7 de abril CloudSEK identificó 32 llaves embebidas en 22 apps con más de 500 millones de instalaciones, incluyendo OYO, Google Pay for Business, ELSA Speak. Tres meses de víctimas documentadas: $82K en Reddit contra un equipo de tres personas en México, $67K en 19 horas contra Colavo Ground en Corea, $12K en 24 horas contra Ivan Iliev. La respuesta oficial de Google, palabra por palabra: ya implementaron medidas proactivas para detectar y bloquear llaves filtradas.
- Anthropic separó el SDK de agentes el 13 de mayo. Los suscriptores Max 20x quedaron en una cuenta separada de $200 mensuales al precio de API de lista, efectiva el 15 de junio. Cálculos públicos de la comunidad ubican el aumento efectivo entre 12 y 175 veces según la carga. La versión 2.1.100 de Claude Code introdujo un cambio silencioso de tokenizer que infla los conteos de Opus 4.7 hasta en 35%, con el caching de prompt roto que fuerza reprocesamiento cada turno.
- Sam McLeod midió que el servidor MCP de GitHub consume 46,000 tokens en 91 herramientas. Es una cuarta parte de la ventana de contexto de Sonnet u Opus 4 antes de escribir una línea de código. Jenny Ouyang trazó una factura de $1,600 en Claude Code a herramientas MCP que volcaban JSON completo dentro del contexto. Vantage midió que las sesiones de agente acumulan entre 25,000 y 35,000 tokens por solicitud al llegar al turno 30. RTK, el binario en Rust que comprime 88% de la salida de la terminal, expuso el problema más que resolverlo.
- La pregunta correcta no es cuánto va a costar el agente. Es qué superficie ya estás filtrando. Dos meses de mapeo de procesos en AI Maestro cuestan menos que un solo incidente de $82,000 por una llave AIza que un Firebase abandonado dejó viva. El KPI nuevo del CFO que cubrimos ayer mide rendimiento por token; este post mide superficie de exposición. Son el mismo cálculo desde dos lados.
- En IQ Source el primer trabajo en cualquier adopción de IA empresarial no es elegir modelo, no es escribir prompts, no es desplegar agentes. Es inventariar la superficie: llaves AIza activas en cada proyecto de GCP, alertas de 429 al mismo nivel que las de 500, presupuesto por herramienta MCP, no solo por sesión. El equipo que cambia primero no paga la curva de aprendizaje pública que están pagando los tres incidentes de esta semana.
Imagina que tu casa tiene un medidor de electricidad y una factura mensual razonable. Un día abres el medidor y descubres que hay tres cables salientes que no recordabas: uno va al departamento del vecino que se fue hace cinco años, otro al taller del jardín que dejaste de usar, y un tercero a una extensión del cuarto del fondo que el inquilino anterior conectó sin avisar. Tu factura nunca subió porque nadie consumía en esos cables. Hasta que alguien lo hizo. La factura de IA empresarial en 2026 funciona idéntico. El problema no es el consumo del agente que sí ves. Es lo que está conectado a tu cuenta que ni siquiera sabes que existe.
Resumen generado con IA
The Register publicó esta misma mañana que un cliente de Google Cloud se despertó con un cargo de $18,392 contra un presupuesto que había configurado en $10 dólares australianos. Nueve mecanismos de seguridad apagados por defecto. Cero notificación. Cita textual del cliente: “no prior notification… not a lot of help to resolve the matter with any sense of urgency” (sin aviso previo, sin mucha ayuda para resolverlo con sentido de urgencia).
Es la tercera vez en 14 días que un equipo público desarma su tablero por una factura de IA que no esperaba.
La trampa está en cómo se está leyendo. Los tres incidentes se cuentan como “el equipo perdió control de sus agentes” o “la IA se está volviendo cara”. No es eso. El patrón debajo de los tres es el mismo: la factura está viniendo de superficies que nadie está mirando. Lo que mide el CFO no es uso descontrolado. Es exposición.
El post de ayer argumentó que el KPI nuevo del CFO es tokens por funcionalidad enviada, no tokens por mes. Este post completa la otra cara del mismo cálculo. Tokens por funcionalidad enviada mide rendimiento. Superficie de exposición mide riesgo. Son las dos columnas del mismo presupuesto, y la mayoría de los equipos solo está mirando una.
El patrón debajo de los tres incidentes
La economía de tokens no es un problema de ajuste. Es un problema de superficie. Tres modos de falla públicos en los últimos 90 días lo dejan claro.
Uno: credenciales que olvidaste. Llaves AIza creadas hace años por Firebase, embebidas en apps Android, que el proveedor reactivó sin avisar. Dos: cambios silenciosos del proveedor. Tarifas, tokenizers y pools de créditos que se mueven entre versiones sin aviso a clientes con una década de historia. Tres: ruido de contexto. Servidores MCP que consumen un cuarto de la ventana antes del primer prompt, herramientas que vuelcan JSON completo dentro del contexto del agente, sesiones que acumulan decenas de miles de tokens por turno sin que nadie note.
No se arregla optimizando prompts. Se arregla inventariando la superficie primero. La distinción importa porque la mayoría de la conversación pública está en el lado equivocado: optimización antes de inventario es una falsa economía.
Las credenciales que olvidaste
El 25 de febrero de 2026 Joe Leon de Truffle Security publicó la falla técnica que arrancó esta serie. Cuando Google habilitó la Gemini API en proyectos de Google Cloud existentes, todas las llaves AIza ya creadas en ese proyecto, incluyendo las llaves de Maps y Firebase que la propia documentación de Google marcaba como seguras para embeber en código cliente, obtuvieron acceso silencioso a Gemini. Truffle midió 2,863 llaves vivas en su ventana de divulgación.
El 7 de abril CloudSEK publicó la versión cuantitativa para Android: 32 llaves embebidas en 22 apps populares con más de 500 millones de instalaciones combinadas. La lista incluyó OYO, Google Pay for Business, Taobao, ELSA Speak y The Hindu. ELSA Speak tuvo exposición confirmada de datos de audio.
Los incidentes documentados de factura tienen nombres y números reales:
- $82,000 en 48 horas. Un equipo de tres personas en México, RatonVaquero en r/googlecloud, el 11 y 12 de febrero. La narrativa popular dijo “solo developer”. La realidad es un equipo de tres. La distinción es importante porque el agujero no es de hábitos individuales; es de superficie heredada.
- $67,000 en 19 horas. Junghyun Choi, COO de Colavo Ground en Corea, el 28 de abril. Llave de 2016 autoprovisionada por Firebase. Pico de 931 solicitudes por segundo.
- $12,000 en 24 horas. Ivan Iliev en LinkedIn el 15 de mayo. Llave Android autogenerada por Firebase en 2016, dormida durante años.
La respuesta oficial de Google, vía The Register el 3 de marzo, palabra por palabra: “We have already implemented proactive measures to detect and block leaked API keys that attempt to access the Gemini API.” (Ya implementamos medidas proactivas para detectar y bloquear llaves filtradas que intenten acceder a la Gemini API.) Google ha reembolsado casos individuales que The Register escaló, pero sin política pública de reembolso por defecto. Sin reconocimiento público de la contradicción entre la documentación de Firebase, que dice que las llaves se pueden embeber en código cliente, y la documentación de Gemini, que dice que la llave se trate como contraseña. Mismo formato, misma compañía, ambas páginas vivas.
El argumento contrario, formulado con bastante claridad por Someone1234 en el hilo de Hacker News: “they’ve implemented hard-limits. So not offering hard-limits is a business decision, NOT a technical one.” (Ya implementaron límites duros internos. Que no los ofrezcan por defecto es una decisión de negocio, no una limitación técnica.) Es justo. El consejo de auditar tus llaves es necesario, pero el problema raíz es de diseño de plataforma, no de higiene del desarrollador. Las dos cosas son verdad al mismo tiempo.
Llevo 36 años en computación, desde 1990, frente a una Commodore 64 con 64KB que había que defender byte por byte. El patrón es el mismo que vi con auditorías de IAM en la nube alrededor de 2012. En ese momento las empresas medianas se enteraban en el mes 18 que tenían 47 cuentas de servicio activas que nadie podía explicar, cada una con permisos heredados de un experimento de hace tres años. La respuesta correcta no fue “sé más cuidadoso al crear cuentas”. Fue inventariar la superficie y revocar todo lo que no tuviera dueño. La factura de IA en 2026 está pidiendo exactamente el mismo trabajo.
Lo que el proveedor cambió esta semana sin avisar
El segundo modo de falla no requiere desarrolladores descuidados ni llaves olvidadas. Requiere ser cliente de buena fe.
El 13 de mayo Anthropic anunció la separación del SDK de agentes. Los suscriptores Max 20x quedaron en una cuenta de créditos separada de $200 mensuales al precio de API de lista, efectiva el 15 de junio. Los cálculos públicos de la comunidad ubican el aumento efectivo entre 12 y 175 veces dependiendo del patrón de carga. Para un equipo que diseñó su flujo asumiendo que el plan Max cubría el agente, la factura del próximo trimestre se multiplica aunque el equipo no toque una línea de código.
La versión 2.1.100 de Claude Code introdujo un cambio silencioso de tokenizer. El reporte público midió inflación de hasta 35% en los conteos de Opus 4.7 para la misma entrada. El caching de prompt rompió en la transición, forzando reprocesamiento completo cada turno. La solución temporal fue bajar a la versión 2.1.34.
Hay un patrón sin nombre en el código de gobernanza pero ya lo conocen todos los que lo viven. Clientes de Google Cloud con una década de historia y plan de pago de mayor nivel quedan reseteados a Tier 1 ($250 mensuales) durante la migración de AI Studio, abril de 2026. Las funciones que dependían del plan superior dejan de funcionar. La documentación oficial dice que la promoción de tier requiere “a few months of history” sobre cuentas que ya tienen 120 meses de historia. Es absurdo en abstracto y real en la práctica.
La conclusión operativa es directa. Los errores de cuota y los códigos 429 ya no son alertas de facturación. Son señales de producción de primer orden, al mismo nivel de severidad que los códigos 500. Uber lo aprendió en abril; el resto del mercado lo está aprendiendo ahora.
El ruido que tu agente está leyendo
El tercer modo es el más interesante porque la mayoría de los equipos ni siquiera sabe que existe.
Sam McLeod publicó la medición pública que sentó la base: el servidor MCP oficial de GitHub registra 46,000 tokens en 91 herramientas. Es una cuarta parte de la ventana de contexto de Sonnet u Opus 4. Antes de que el agente vea la primera línea de tu repositorio.
Jenny Ouyang trazó una factura de $1,600 en Claude Code a herramientas MCP que volcaban JSON completo en el contexto en cada llamada. Vantage publicó el análisis cuantitativo que dice lo mismo en agregado: las sesiones de agente acumulan entre 25,000 y 35,000 tokens por solicitud al llegar al turno 30. No es uso. Es sedimentación.
Thomas Giordmaina publicó en LinkedIn la semana pasada RTK, un binario en Rust que intercepta la salida de la terminal antes de que el modelo la lea. Comprime el ruido de eslint, grep, diff, playwright: 88.3% de reducción medida sobre 6,077 comandos, 50.4 millones de tokens ahorrados. La pregunta interesante no es si el número es real. Es lo que el número significa.
Significa que el 88% de lo que tu agente está leyendo no es señal. Es relleno de la shell. El argumento que importa no es “deberíamos comprimir”. Es “nadie sabe qué está leyendo el agente”. La compresión esconde el problema. La inventariación lo nombra. El issue 1282 del propio repo de RTK, abierto por @panwudi, documenta el contraejemplo: la compresión silenciosa puede corromper la entrada del subagente con encabezados que parecen datos. Comprimir antes de saber qué estás leyendo solo cambia el modo de falla.
Anthropic respondió a este mismo problema el 6 de mayo con MCP Tool Search: descubrimiento de herramientas bajo demanda, reducción de overhead reportada en 85%. Es la pieza correcta. Tratar la ventana de contexto como inventario, no como espacio infinito.
Tres acciones para el lunes y una decisión de tres meses
Lo que un CTO puede mover esta semana, en tres acciones concretas:
Una. Lista todas las llaves AIza en todos los proyectos de Google Cloud y todas las cuentas vinculadas. El comando es gcloud alpha services api-keys list --project=<PROJECT> por proyecto. Cada llave sin restricción de aplicación, IP o API target, en un proyecto donde la Gemini API está habilitada, es un pasivo de $100,000 por día. Cualquier llave que no puedas asignar a una aplicación concreta y vigente se revoca. No se “audita más adelante”. Se revoca.
Dos. Mueve las alertas de cuota y de error 429 al mismo nivel de severidad que los errores 500 de producción. La factura de Uber, el reset de Tier 1 de Google, la separación del SDK de agentes de Anthropic: los tres incidentes tuvieron señales de cuota antes del estallido. Nadie los oyó porque estaban filtrados como “alertas de facturación”.
Tres. Mide tokens por herramienta MCP, no solo tokens por sesión. Cada herramienta MCP es una cuota fija que pagas en cada arranque, no un costo bajo demanda. Si tu servidor MCP tiene 91 herramientas y solo usas 7, las otras 84 están comiendo tu ventana de contexto sin trabajar.
Las tres acciones son baratas y se pueden completar antes del próximo viernes. La decisión más grande, la que toma tres meses, es ordenar el inventario antes de instalar agentes. En IQ Source el primer trabajo de AI Maestro, el programa de descubrimiento de dos meses que opera antes de cualquier despliegue, es exactamente esto: mapear la superficie de exposición de IA que ya existe en la empresa, no proponer la siguiente. El mapa incluye llaves, cuotas, MCPs activos, sesiones que dejan rastro de tokens, contratos de proveedor con cláusulas de cambio silencioso. Dos meses de mapa cuestan menos que un solo $82,000 en una llave AIza que el Firebase de hace seis años dejó viva.
La pregunta para el CFO no es cuánto va a costar el agente nuevo. Es qué superficie ya está filtrando. La factura de IA viene de donde no estás mirando, y la única forma de empezar a mirar es inventariar antes de optimizar.
Quiero un mapa de superficie de IA antes del próximo trimestrePreguntas Frecuentes
Cuando Google habilitó la Gemini API en proyectos de Google Cloud existentes, todas las llaves AIza ya creadas en ese proyecto, incluyendo llaves de Maps y Firebase que la propia documentación marcaba como seguras para embeber en código cliente, obtuvieron acceso silencioso a Gemini. Truffle Security publicó la falla el 25 de febrero de 2026. Una llave embebida en una app Android de hace cinco años puede generar $80K en cargos en 48 horas sin ningún cambio del lado del propietario.
Anthropic separó el SDK de agentes en una cuenta de créditos independiente. Los suscriptores Max 20x quedaron en un pool de $200 mensuales al precio de API de lista, efectivo el 15 de junio de 2026. Para cargas de trabajo de agentes intensivos, cálculos públicos de la comunidad ubican el aumento efectivo de precio entre 12 y 175 veces, dependiendo del patrón de uso. La factura del próximo trimestre puede multiplicarse aunque el equipo no cambie nada.
El servidor MCP oficial de GitHub registra 46,000 tokens en sus 91 herramientas, una cuarta parte de la ventana de contexto de Claude Sonnet u Opus 4 antes de escribir una línea de código. Sam McLeod publicó la medición en agosto de 2025. Cada herramienta MCP carga su esquema completo en el contexto del agente al inicio de cada sesión, aunque el agente no la invoque. Es ruido permanente, no consumo bajo demanda.
Tres pasos. Uno: listar todas las llaves AIza en todos los proyectos de Google Cloud con gcloud alpha services api-keys list y verificar restricciones por aplicación y por API. Dos: configurar alertas de cuota 429 al mismo nivel de severidad que las alertas de error 500 de producción. Tres: medir tokens por herramienta MCP, no solo por sesión, para detectar cargas pasivas que están comiendo ventana de contexto antes del primer prompt.
Artículos Relacionados
Tokens por funcionalidad enviada: el KPI nuevo del CFO
Peter Steinberger gastó $1.3M en tokens en 30 días. Riaz Khan respondió con el KPI que sí mide IA: tokens por funcionalidad enviada, no tokens por mes.
IA no abarata tu producto, cambia tu margen
OpenAI lanzó Deployment Co. Anthropic factura $45B. Stripe contrata 1 ingeniero de IA por cada 20 personas. El precio no cae, cambió cómo se entrega.