Saltar al contenido principal

La factura de IA viene de donde no estás mirando

Tres incidentes de tokens en 14 días. El patrón no es uso descontrolado. Es superficie: credenciales dormidas, cambios silenciosos, ruido de contexto.

La factura de IA viene de donde no estás mirando

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 10 min de lectura

The Register publicó esta misma mañana que un cliente de Google Cloud se despertó con un cargo de $18,392 contra un presupuesto que había configurado en $10 dólares australianos. Nueve mecanismos de seguridad apagados por defecto. Cero notificación. Cita textual del cliente: “no prior notification… not a lot of help to resolve the matter with any sense of urgency” (sin aviso previo, sin mucha ayuda para resolverlo con sentido de urgencia).

Es la tercera vez en 14 días que un equipo público desarma su tablero por una factura de IA que no esperaba.

La trampa está en cómo se está leyendo. Los tres incidentes se cuentan como “el equipo perdió control de sus agentes” o “la IA se está volviendo cara”. No es eso. El patrón debajo de los tres es el mismo: la factura está viniendo de superficies que nadie está mirando. Lo que mide el CFO no es uso descontrolado. Es exposición.

El post de ayer argumentó que el KPI nuevo del CFO es tokens por funcionalidad enviada, no tokens por mes. Este post completa la otra cara del mismo cálculo. Tokens por funcionalidad enviada mide rendimiento. Superficie de exposición mide riesgo. Son las dos columnas del mismo presupuesto, y la mayoría de los equipos solo está mirando una.

El patrón debajo de los tres incidentes

La economía de tokens no es un problema de ajuste. Es un problema de superficie. Tres modos de falla públicos en los últimos 90 días lo dejan claro.

Uno: credenciales que olvidaste. Llaves AIza creadas hace años por Firebase, embebidas en apps Android, que el proveedor reactivó sin avisar. Dos: cambios silenciosos del proveedor. Tarifas, tokenizers y pools de créditos que se mueven entre versiones sin aviso a clientes con una década de historia. Tres: ruido de contexto. Servidores MCP que consumen un cuarto de la ventana antes del primer prompt, herramientas que vuelcan JSON completo dentro del contexto del agente, sesiones que acumulan decenas de miles de tokens por turno sin que nadie note.

No se arregla optimizando prompts. Se arregla inventariando la superficie primero. La distinción importa porque la mayoría de la conversación pública está en el lado equivocado: optimización antes de inventario es una falsa economía.

Las credenciales que olvidaste

El 25 de febrero de 2026 Joe Leon de Truffle Security publicó la falla técnica que arrancó esta serie. Cuando Google habilitó la Gemini API en proyectos de Google Cloud existentes, todas las llaves AIza ya creadas en ese proyecto, incluyendo las llaves de Maps y Firebase que la propia documentación de Google marcaba como seguras para embeber en código cliente, obtuvieron acceso silencioso a Gemini. Truffle midió 2,863 llaves vivas en su ventana de divulgación.

El 7 de abril CloudSEK publicó la versión cuantitativa para Android: 32 llaves embebidas en 22 apps populares con más de 500 millones de instalaciones combinadas. La lista incluyó OYO, Google Pay for Business, Taobao, ELSA Speak y The Hindu. ELSA Speak tuvo exposición confirmada de datos de audio.

Los incidentes documentados de factura tienen nombres y números reales:

  • $82,000 en 48 horas. Un equipo de tres personas en México, RatonVaquero en r/googlecloud, el 11 y 12 de febrero. La narrativa popular dijo “solo developer”. La realidad es un equipo de tres. La distinción es importante porque el agujero no es de hábitos individuales; es de superficie heredada.
  • $67,000 en 19 horas. Junghyun Choi, COO de Colavo Ground en Corea, el 28 de abril. Llave de 2016 autoprovisionada por Firebase. Pico de 931 solicitudes por segundo.
  • $12,000 en 24 horas. Ivan Iliev en LinkedIn el 15 de mayo. Llave Android autogenerada por Firebase en 2016, dormida durante años.

La respuesta oficial de Google, vía The Register el 3 de marzo, palabra por palabra: “We have already implemented proactive measures to detect and block leaked API keys that attempt to access the Gemini API.” (Ya implementamos medidas proactivas para detectar y bloquear llaves filtradas que intenten acceder a la Gemini API.) Google ha reembolsado casos individuales que The Register escaló, pero sin política pública de reembolso por defecto. Sin reconocimiento público de la contradicción entre la documentación de Firebase, que dice que las llaves se pueden embeber en código cliente, y la documentación de Gemini, que dice que la llave se trate como contraseña. Mismo formato, misma compañía, ambas páginas vivas.

El argumento contrario, formulado con bastante claridad por Someone1234 en el hilo de Hacker News: “they’ve implemented hard-limits. So not offering hard-limits is a business decision, NOT a technical one.” (Ya implementaron límites duros internos. Que no los ofrezcan por defecto es una decisión de negocio, no una limitación técnica.) Es justo. El consejo de auditar tus llaves es necesario, pero el problema raíz es de diseño de plataforma, no de higiene del desarrollador. Las dos cosas son verdad al mismo tiempo.

Llevo 36 años en computación, desde 1990, frente a una Commodore 64 con 64KB que había que defender byte por byte. El patrón es el mismo que vi con auditorías de IAM en la nube alrededor de 2012. En ese momento las empresas medianas se enteraban en el mes 18 que tenían 47 cuentas de servicio activas que nadie podía explicar, cada una con permisos heredados de un experimento de hace tres años. La respuesta correcta no fue “sé más cuidadoso al crear cuentas”. Fue inventariar la superficie y revocar todo lo que no tuviera dueño. La factura de IA en 2026 está pidiendo exactamente el mismo trabajo.

Lo que el proveedor cambió esta semana sin avisar

El segundo modo de falla no requiere desarrolladores descuidados ni llaves olvidadas. Requiere ser cliente de buena fe.

El 13 de mayo Anthropic anunció la separación del SDK de agentes. Los suscriptores Max 20x quedaron en una cuenta de créditos separada de $200 mensuales al precio de API de lista, efectiva el 15 de junio. Los cálculos públicos de la comunidad ubican el aumento efectivo entre 12 y 175 veces dependiendo del patrón de carga. Para un equipo que diseñó su flujo asumiendo que el plan Max cubría el agente, la factura del próximo trimestre se multiplica aunque el equipo no toque una línea de código.

La versión 2.1.100 de Claude Code introdujo un cambio silencioso de tokenizer. El reporte público midió inflación de hasta 35% en los conteos de Opus 4.7 para la misma entrada. El caching de prompt rompió en la transición, forzando reprocesamiento completo cada turno. La solución temporal fue bajar a la versión 2.1.34.

Hay un patrón sin nombre en el código de gobernanza pero ya lo conocen todos los que lo viven. Clientes de Google Cloud con una década de historia y plan de pago de mayor nivel quedan reseteados a Tier 1 ($250 mensuales) durante la migración de AI Studio, abril de 2026. Las funciones que dependían del plan superior dejan de funcionar. La documentación oficial dice que la promoción de tier requiere “a few months of history” sobre cuentas que ya tienen 120 meses de historia. Es absurdo en abstracto y real en la práctica.

La conclusión operativa es directa. Los errores de cuota y los códigos 429 ya no son alertas de facturación. Son señales de producción de primer orden, al mismo nivel de severidad que los códigos 500. Uber lo aprendió en abril; el resto del mercado lo está aprendiendo ahora.

El ruido que tu agente está leyendo

El tercer modo es el más interesante porque la mayoría de los equipos ni siquiera sabe que existe.

Sam McLeod publicó la medición pública que sentó la base: el servidor MCP oficial de GitHub registra 46,000 tokens en 91 herramientas. Es una cuarta parte de la ventana de contexto de Sonnet u Opus 4. Antes de que el agente vea la primera línea de tu repositorio.

Jenny Ouyang trazó una factura de $1,600 en Claude Code a herramientas MCP que volcaban JSON completo en el contexto en cada llamada. Vantage publicó el análisis cuantitativo que dice lo mismo en agregado: las sesiones de agente acumulan entre 25,000 y 35,000 tokens por solicitud al llegar al turno 30. No es uso. Es sedimentación.

Thomas Giordmaina publicó en LinkedIn la semana pasada RTK, un binario en Rust que intercepta la salida de la terminal antes de que el modelo la lea. Comprime el ruido de eslint, grep, diff, playwright: 88.3% de reducción medida sobre 6,077 comandos, 50.4 millones de tokens ahorrados. La pregunta interesante no es si el número es real. Es lo que el número significa.

Significa que el 88% de lo que tu agente está leyendo no es señal. Es relleno de la shell. El argumento que importa no es “deberíamos comprimir”. Es “nadie sabe qué está leyendo el agente”. La compresión esconde el problema. La inventariación lo nombra. El issue 1282 del propio repo de RTK, abierto por @panwudi, documenta el contraejemplo: la compresión silenciosa puede corromper la entrada del subagente con encabezados que parecen datos. Comprimir antes de saber qué estás leyendo solo cambia el modo de falla.

Anthropic respondió a este mismo problema el 6 de mayo con MCP Tool Search: descubrimiento de herramientas bajo demanda, reducción de overhead reportada en 85%. Es la pieza correcta. Tratar la ventana de contexto como inventario, no como espacio infinito.

Tres acciones para el lunes y una decisión de tres meses

Lo que un CTO puede mover esta semana, en tres acciones concretas:

Una. Lista todas las llaves AIza en todos los proyectos de Google Cloud y todas las cuentas vinculadas. El comando es gcloud alpha services api-keys list --project=<PROJECT> por proyecto. Cada llave sin restricción de aplicación, IP o API target, en un proyecto donde la Gemini API está habilitada, es un pasivo de $100,000 por día. Cualquier llave que no puedas asignar a una aplicación concreta y vigente se revoca. No se “audita más adelante”. Se revoca.

Dos. Mueve las alertas de cuota y de error 429 al mismo nivel de severidad que los errores 500 de producción. La factura de Uber, el reset de Tier 1 de Google, la separación del SDK de agentes de Anthropic: los tres incidentes tuvieron señales de cuota antes del estallido. Nadie los oyó porque estaban filtrados como “alertas de facturación”.

Tres. Mide tokens por herramienta MCP, no solo tokens por sesión. Cada herramienta MCP es una cuota fija que pagas en cada arranque, no un costo bajo demanda. Si tu servidor MCP tiene 91 herramientas y solo usas 7, las otras 84 están comiendo tu ventana de contexto sin trabajar.

Las tres acciones son baratas y se pueden completar antes del próximo viernes. La decisión más grande, la que toma tres meses, es ordenar el inventario antes de instalar agentes. En IQ Source el primer trabajo de AI Maestro, el programa de descubrimiento de dos meses que opera antes de cualquier despliegue, es exactamente esto: mapear la superficie de exposición de IA que ya existe en la empresa, no proponer la siguiente. El mapa incluye llaves, cuotas, MCPs activos, sesiones que dejan rastro de tokens, contratos de proveedor con cláusulas de cambio silencioso. Dos meses de mapa cuestan menos que un solo $82,000 en una llave AIza que el Firebase de hace seis años dejó viva.

La pregunta para el CFO no es cuánto va a costar el agente nuevo. Es qué superficie ya está filtrando. La factura de IA viene de donde no estás mirando, y la única forma de empezar a mirar es inventariar antes de optimizar.

Quiero un mapa de superficie de IA antes del próximo trimestre

Preguntas Frecuentes

disciplina de costos IA Gemini API Truffle Security economía de agentes gobernanza IA MCP AI Maestro

Artículos Relacionados

Tokens por funcionalidad enviada: el KPI nuevo del CFO
Estrategia Empresarial
· 10 min de lectura

Tokens por funcionalidad enviada: el KPI nuevo del CFO

Peter Steinberger gastó $1.3M en tokens en 30 días. Riaz Khan respondió con el KPI que sí mide IA: tokens por funcionalidad enviada, no tokens por mes.

tokens KPI IA presupuesto IA empresarial
IA no abarata tu producto, cambia tu margen
Estrategia Empresarial
· 9 min de lectura

IA no abarata tu producto, cambia tu margen

OpenAI lanzó Deployment Co. Anthropic factura $45B. Stripe contrata 1 ingeniero de IA por cada 20 personas. El precio no cae, cambió cómo se entrega.

AI Maestro Socio Tecnológico OpenAI Deployment Company