Un tope de $1,500 no cura tu factura de IA descontrolada
Ricardo Argüello — 6 de junio de 2026
CEO & Fundador
Resumen general
En una misma semana Uber le puso un tope de $1,500 por persona al gasto en herramientas de IA, y se supo que una empresa quemó más de $500 millones en Claude en treinta días por no tener ningún límite. La reacción de todos es la misma: ponle un tope. Pero el tope trata el síntoma. La enfermedad es soltar agentes sobre trabajo que nadie midió: nadie definió cuánto retorno produce cada proceso por token gastado. Un tope no sabe qué tokens servían y cuáles no. La salida no es presupuestar después, es definir el alcance antes.
- Uber agotó su presupuesto de IA de todo 2026 en cuatro meses y reaccionó con un tope de $1,500 por persona por herramienta; antes, ingenieros individuales generaban facturas de $500 a $2,000 al mes.
- Una empresa quemó más de $500 millones en Claude en un solo mes por acceso sin límites de sus empleados, lo que un consultor llamó tokenmaxxing: uso maximizado que se sale de control sin supervisión.
- Un tope es un instrumento ciego: corta el gasto pero no te dice qué tokens producían valor y cuáles se desperdiciaban. Trata el síntoma, no la causa.
- Arvind Jain, CEO de Glean, lo dice claro: el gasto de tokens es un problema de arquitectura, no solo de modelo. El gasto de IA empezó a parecerse al gasto de nube, y ahí ganas con rendimiento por token, no con un tope.
- AI Maestro de IQ Source define el alcance y el retorno esperado de cada proceso antes de soltar un agente, así no necesitas un tope de pánico después del primer susto.
Imagina que le das a cada empleado una tarjeta de gasolina sin límite y, al final del mes, llega una factura imposible. La reacción obvia es ponerle un tope a la tarjeta. Pero el tope no te dice quién manejó para cerrar ventas y quién dio vueltas sin rumbo: solo corta a todos por igual. Con la IA pasa lo mismo. El tope frena la factura, pero no distingue el token que resolvió un problema del token que se desperdició. Lo que de verdad arregla el gasto es decidir, antes de arrancar, para qué se usa el carro.
Resumen generado con IA
En la misma semana pasaron dos cosas. Uber le puso un tope de $1,500 por persona al gasto en cada herramienta de IA, después de quemar el presupuesto de todo 2026 en cuatro meses. Y se supo que una empresa gastó más de $500 millones en Claude en un solo mes, por no tener ningún límite.
La reacción de medio internet fue la misma: ponle un tope. Tiene sentido como freno de emergencia. Pero como estrategia, trata el síntoma.
La tesis de este post en una línea: el tope no es la cura. La enfermedad no es el precio del token, es soltar agentes sobre trabajo que nadie midió. Nadie definió cuánto retorno produce cada proceso por token gastado, así que cuando la factura llega, lo único que queda es cortar a ciegas. La salida no es presupuestar después. Es definir el alcance antes.
El mes que costó $500 millones
La historia de los quinientos millones de dólares es la que más asusta, así que vale empezar por ahí. Según un reporte de Axios, una empresa quemó más de $500 millones en Claude en treinta días. No por un contrato firmado, sino por darle acceso sin restricciones a sus empleados: sin presupuestos, sin cuotas, sin monitoreo. Un consultor lo bautizó tokenmaxxing, el uso maximizado que se descontrola cuando la gente genera prompts sin supervisión.
El caso de Uber es menos dramático pero más instructivo, porque es una empresa disciplinada que igual se estrelló. Agotó su presupuesto de IA de todo 2026 en los primeros cuatro meses. Antes del tope, ingenieros individuales generaban facturas de entre $500 y $2,000 al mes en consumo de tokens. La respuesta fue un tope de $1,500 por persona por cada herramienta de programación agéntica, un tablero de uso para cada empleado, y un proceso para pedir más cuando se necesita.
Es una buena medida de contención. Uber hizo lo correcto para frenar la hemorragia. Pero fíjate en lo que un tope no puede hacer.
Un tope no sabe qué tokens servían
Un tope es un instrumento ciego. Corta el gasto, pero no distingue el token que cerró un problema del token que se desperdició dando vueltas. Le pone el mismo techo al ingeniero que resolvió tres incidentes y al que dejó un agente corriendo en círculos todo el fin de semana.
Alguien en la conversación de esta semana lo dijo mejor que cualquier consultor: nadie le pone tope al gasto en algo que puede medir. El tope de $1,500 no es un veredicto sobre el valor de la IA. Es la confesión de que la empresa no podía ver cuáles tokens estaban funcionando.
Y ahí está el punto que casi nadie quiere decir en voz alta. El problema de fondo no es el precio por token, que de hecho lleva años cayendo. El problema es que la mayoría de las empresas soltó agentes sobre procesos que nunca dimensionó. Nunca se preguntaron, antes de arrancar, cuánto trabajo útil debería producir este proceso por cada dólar de tokens. Sin esa cifra, no hay forma de saber si una factura de $1,800 es un robo o una ganga. Solo queda el reflejo de cortar.
El gasto de tokens ya parece gasto de nube
Arvind Jain, el CEO de Glean, viene insistiendo en algo que conviene escuchar: el gasto de tokens es un problema de arquitectura, no solo de modelo. Su empresa reporta clientes cuyo presupuesto anual de IA se agota en uno o dos meses, y su tesis es que la pregunta correcta no es cuántos tokens consume un sistema, sino cuánto trabajo útil produce por token. Lo llama rendimiento por token, y depende de cómo está armado todo lo que rodea al modelo: cómo se recupera el contexto, cómo se enrutan los modelos, cómo se reutiliza el trabajo ya hecho.
Es la misma transición que vivió la nube hace quince años. Cuando un agente puede reintentar solo, explorar la web y lanzar sub-agentes por su cuenta, el gasto deja de parecer una licencia mensual fija y empieza a parecerse a una factura de nube: variable, sin techo natural, y peligrosa si nadie le pone presupuestos y trazas por proceso. La diferencia es que en la nube aprendimos a medir el costo por servicio antes de dejarlo correr. Con la IA, demasiadas empresas saltaron ese paso.
Ya escribí antes que el costo era el guardarraíl que no sabías que tenías, y que los tokens por funcionalidad enviada son el KPI que importa. Lo que cambió esta semana no es la tesis. Es que el mercado por fin reaccionó, y reaccionó con el instrumento equivocado. El tope llega después del gasto. El alcance llega antes.
Lo que hacemos en IQ Source con esto
Cuando una empresa nos pide meter IA en un proceso, no empezamos preguntando qué modelo ni cuánto presupuesto. Empezamos preguntando cuánto trabajo útil debería producir ese proceso, y cuánto estaríamos dispuestos a pagar en tokens por ese resultado. Esa cifra, definida antes de construir, es la que vuelve innecesario el tope de pánico.
AI Maestro es el discovery donde se hace esa cuenta. Dos meses mapeando la operación real para decidir, proceso por proceso, cuáles vale la pena automatizar y cuál es el rendimiento por token esperado de cada uno. De ahí sale un Score de Oportunidad de IA y una compuerta Go/No-Go que, más de una vez, recomienda no soltar el agente todavía, justamente porque la cuenta no cierra. No es austeridad. Es dimensionar el gasto antes de firmarlo.
Un tope te dice cuánto puedes gastar. No te dice si vale la pena gastarlo. Esas son dos preguntas distintas, y la segunda se responde antes de construir, no cuando llega la factura. La próxima vez que alguien proponga ponerle un tope al gasto de IA del equipo, haz primero la otra pregunta: ¿sabemos, por proceso, cuánto trabajo útil nos da cada dólar de tokens? Si la respuesta es no, el tope no te va a salvar. Solo te va a esconder el problema un mes más.
Dimensiona el gasto de IA antes de firmarloPreguntas Frecuentes
Uber agotó su presupuesto de IA de todo 2026 en apenas cuatro meses por el consumo de tokens de herramientas de programación agéntica como Claude Code. Antes del tope, ingenieros individuales generaban facturas de $500 a $2,000 al mes. El tope de $1,500 por persona por herramienta busca contener el gasto, aunque no resuelve la causa de fondo.
Tokenmaxxing es el uso maximizado de IA que se sale de control cuando los empleados generan prompts sin supervisión ni límites. Según un reporte de Axios, una empresa gastó más de $500 millones en Claude en treinta días por dar acceso sin restricciones, sin presupuestos ni monitoreo. El problema no fue el precio del token, fue la ausencia de alcance y control.
Un tope de gasto frena la factura, pero es un instrumento ciego: no distingue los tokens que producen valor de los que se desperdician, y corta a todos por igual. Sirve como freno de emergencia, no como estrategia. Controlar los costos de IA exige definir el alcance y el retorno esperado de cada proceso antes de soltar un agente.
AI Maestro de IQ Source define, en un discovery de dos meses, qué procesos vale la pena automatizar y cuánto retorno se espera de cada uno por token gastado. Al medir el rendimiento por token antes de construir, la empresa dimensiona el gasto por proceso y no necesita un tope de pánico después de recibir una factura imposible.
Artículos Relacionados
El pico de confianza con la IA y la bajada sin dueño
Construir IA es más barato que nunca, así que la apuesta es construir. Pero el 95% de los pilotos no mueve el P&L, y nadie cuida la bajada de la curva.
El agente autónomo es un pasivo, no una ventaja
Cognition levantó mil millones a 26 mil millones de valoración por un agente autónomo. En producción, la autonomía es justo lo que primero falla. La pregunta es cuánta darle.