Saltar al contenido principal

El precio por token miente: mide el costo por tarea

Gemini 3 Flash se lista 80% más barato que GPT-5.4 y costó 38% más al correrlo. El precio de lista es marketing. La factura depende de cuántos tokens quema cada modelo.

El precio por token miente: mide el costo por tarea

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 5 min de lectura

El precio por token es un número de marketing. La factura es un número de comportamiento. Y casi nunca están ni en el mismo orden.

Esa es la tesis de este post, y tiene una consecuencia directa para cualquiera que construya sobre IA o que esté presupuestando su gasto: elegir modelo por el precio de la tabla es elegir por el número equivocado. El barato por token puede salirte más caro por trabajo terminado, y a veces por mucho. La competencia que importa no es encontrar el modelo más barato de la lista, es medir cuánto te cuesta de verdad cada tarea y enrutar el trabajo al modelo correcto. Eso es lo que montamos cuando construimos sobre modelos, y el resto del post explica por qué.

El número que miente, con datos

Serge Herkül, que asesora a empresas SaaS en precios, lo planteó con un caso que duele: Gemini 3 Flash se lista 80% más barato que GPT-5.4. Al correr doce tareas reales, costó 38% más.

No es una anomalía. Herkül cita un estudio de Stanford, Berkeley, CMU y Microsoft, titulado “The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More”, que corrió ocho modelos de razonamiento sobre doce tareas y comparó el precio de lista con la factura real. En casi un tercio de los enfrentamientos, el modelo “más barato” costó más. En el peor caso, 28 veces más.

Los detalles explican por qué. Un modelo gastó 60.000 tokens de razonamiento en un problema que otro resolvió en 25. En una tarea de agente, uno dio 57 pasos donde otro dio 7. Y la parte más incómoda para quien intenta presupuestar: el mismo modelo, con la misma consulta, varió el costo hasta 9,7 veces entre corridas.

Quita la IA de la ecuación y queda una lección de precios tan vieja como el comercio: el precio unitario no es el costo total.

Por qué el barato sale caro

La mecánica es simple cuando la ves. No pagas por pregunta. Pagas por token. Y cada modelo quema una cantidad distinta de tokens para llegar a la misma respuesta.

Un modelo con precio de lista bajo puede ser un modelo que piensa de más. Razona en voz alta durante miles de tokens antes de contestar, o se mete en un bucle de pasos cuando actúa como agente, o vuelve a leer el mismo contexto una y otra vez. Cada uno de esos tokens cuesta, aunque cada token individual sea barato. El modelo caro por token a veces va directo al punto, gasta una fracción de los tokens y termina costando menos por trabajo.

Y encima está la variabilidad. Que el mismo modelo con la misma consulta oscile casi diez veces en costo entre dos corridas significa que ni siquiera puedes asumir un promedio estable. El costo por tarea no es un punto, es una distribución, y la cola de esa distribución es donde se te va el dinero.

Lo que esto rompe en tu negocio

Si construyes un producto sobre LLMs, esto te toca de dos formas, y conviene verlas claras.

La primera es tu costo de operación. Tu costo de los bienes vendidos no es el precio de lista. Es el precio de lista por el consumo, y el consumo es variable, específico de cada modelo y en parte aleatorio. Si modelaste tu margen con el número de la tabla, modelaste el número equivocado. Lo escribí desde otro ángulo en el post sobre la palanca oculta de costos en IA: el tiempo, donde el batch, el caching y el horario cambian la factura tanto como el modelo.

La segunda es cómo cobras. Si pones una tarifa plana encima de un costo variable, tus usuarios más pesados se hunden bajo el agua sin que lo notes. Le entregaste tu margen a un generador de números aleatorios. Esto conecta directo con algo que ya argumenté: en IA, eres lo que cobras. Cobrar por el resultado solo funciona si sabes cuánto te cuesta producir ese resultado, y aquí está la parte que casi nadie mide.

Y no, ponerle un tope al gasto no lo arregla. Ya lo conté en un tope de 1.500 no cura tu factura de IA: el tope trata el síntoma. La causa es no saber qué tarea corre en qué modelo a qué costo real.

Lo que IQ Source hace con esto

La salida no es elegir el modelo más barato ni el más caro. Es dejar de elegir por la tabla de precios y empezar a elegir por el costo por tarea terminada en tu propio flujo.

Eso exige una disciplina que casi nadie tiene montada. Hay que correr cada modelo candidato sobre tus tareas reales, no sobre un benchmark genérico, medir cuántos tokens y cuántos pasos consume hasta terminar, mirar la cola de la distribución y no solo el promedio, y enrutar cada tipo de trabajo al modelo que lo resuelve más barato de extremo a extremo. A veces el modelo de frontera caro es el más económico para la tarea difícil, y un modelo eficiente basta para la tarea rutinaria. La única forma de saberlo es medirlo en tu contexto.

En IQ Source eso es parte de lo que construimos cuando una empresa nos pone a montar IA sobre su operación. No entregamos “usa este modelo”. Entregamos una tabla de enrutamiento basada en tus tareas, con el costo por trabajo medido, no estimado. Es la diferencia entre comprar por la etiqueta y comprar por la factura.

La próxima vez que alguien en tu equipo proponga cambiar de modelo “porque es más barato”, hazle una pregunta concreta: ¿más barato por token o más barato por tarea terminada? Si la respuesta es “por token”, todavía no sabes lo que va a costar. Lo vas a descubrir en la factura, que es el único número que de verdad pagas.

Mide el costo real de tu IA por tarea, no por token

Preguntas Frecuentes

costos de IA economía de IA selección de modelos enrutamiento de modelos precios de IA AI Maestro estrategia de IA

Artículos Relacionados

La certeza del experto frena tu adopción de IA
Estrategia Empresarial
· 7 min de lectura

La certeza del experto frena tu adopción de IA

Altman dijo que los científicos más brillantes frenaron la IA por exceso de certeza. En tu empresa pasa igual: la persona más segura suele ser el mayor freno.

adopción de IA Sam Altman gestión del cambio
En IA, eres lo que cobras, no lo que instalas
Estrategia Empresarial
· 5 min de lectura

En IA, eres lo que cobras, no lo que instalas

Joe Pine lo resume así: eres lo que cobras. Si cobras por la herramienta, estás en el negocio de las herramientas. Cobrar por el resultado te obliga a que el cambio ocurra.

economía de la transformación Joe Pine modelo de negocio