El precio por token miente: mide el costo por tarea
Ricardo Argüello — 21 de junio de 2026
CEO & Fundador
Resumen general
Un estudio de Stanford, Berkeley, CMU y Microsoft corrió ocho modelos de razonamiento sobre doce tareas y comparó el precio de lista con la factura real. En casi un tercio de los casos, el modelo más barato por token resultó más caro por trabajo, hasta 28 veces más en el peor caso. Gemini 3 Flash se lista 80% más barato que GPT-5.4 y costó 38% más al correrlo. El precio por token es un número de marketing. La factura es un número de comportamiento, y casi nunca coinciden.
- No pagas por pregunta, pagas por token, y cada modelo quema una cantidad distinta para resolver lo mismo. Uno gastó 60.000 tokens de razonamiento en un problema que otro resolvió en 25.
- En una tarea de agente, un modelo dio 57 pasos donde otro dio 7. Más barato por token, más caro por trabajo terminado.
- El mismo modelo con la misma consulta varió el costo hasta 9,7 veces entre corridas. La variabilidad hace imposible cotizar una tarifa plana sin quedar expuesto.
- Tu costo real no es el precio de lista, es el precio de lista por el consumo, y el consumo es variable, específico de cada modelo y en parte aleatorio.
- La competencia que importa es medir el costo por tarea terminada y enrutar el trabajo al modelo correcto. Eso es lo que IQ Source monta cuando construye sobre modelos, no elegir el más barato de la tabla.
Imagina que comparas dos taxis por la tarifa por kilómetro. Uno cobra la mitad que el otro, así que lo eliges. Lo que la tarifa no te dice es que ese taxi toma la ruta larga, se detiene en cada semáforo y a veces da vueltas de más, mientras el caro va directo. Al final del viaje, el barato te salió más caro. Con los modelos de IA pasa igual: el precio por token es la tarifa por kilómetro, pero tú pagas el viaje completo, y cada modelo maneja distinto.
Resumen generado con IA
El precio por token es un número de marketing. La factura es un número de comportamiento. Y casi nunca están ni en el mismo orden.
Esa es la tesis de este post, y tiene una consecuencia directa para cualquiera que construya sobre IA o que esté presupuestando su gasto: elegir modelo por el precio de la tabla es elegir por el número equivocado. El barato por token puede salirte más caro por trabajo terminado, y a veces por mucho. La competencia que importa no es encontrar el modelo más barato de la lista, es medir cuánto te cuesta de verdad cada tarea y enrutar el trabajo al modelo correcto. Eso es lo que montamos cuando construimos sobre modelos, y el resto del post explica por qué.
El número que miente, con datos
Serge Herkül, que asesora a empresas SaaS en precios, lo planteó con un caso que duele: Gemini 3 Flash se lista 80% más barato que GPT-5.4. Al correr doce tareas reales, costó 38% más.
No es una anomalía. Herkül cita un estudio de Stanford, Berkeley, CMU y Microsoft, titulado “The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More”, que corrió ocho modelos de razonamiento sobre doce tareas y comparó el precio de lista con la factura real. En casi un tercio de los enfrentamientos, el modelo “más barato” costó más. En el peor caso, 28 veces más.
Los detalles explican por qué. Un modelo gastó 60.000 tokens de razonamiento en un problema que otro resolvió en 25. En una tarea de agente, uno dio 57 pasos donde otro dio 7. Y la parte más incómoda para quien intenta presupuestar: el mismo modelo, con la misma consulta, varió el costo hasta 9,7 veces entre corridas.
Quita la IA de la ecuación y queda una lección de precios tan vieja como el comercio: el precio unitario no es el costo total.
Por qué el barato sale caro
La mecánica es simple cuando la ves. No pagas por pregunta. Pagas por token. Y cada modelo quema una cantidad distinta de tokens para llegar a la misma respuesta.
Un modelo con precio de lista bajo puede ser un modelo que piensa de más. Razona en voz alta durante miles de tokens antes de contestar, o se mete en un bucle de pasos cuando actúa como agente, o vuelve a leer el mismo contexto una y otra vez. Cada uno de esos tokens cuesta, aunque cada token individual sea barato. El modelo caro por token a veces va directo al punto, gasta una fracción de los tokens y termina costando menos por trabajo.
Y encima está la variabilidad. Que el mismo modelo con la misma consulta oscile casi diez veces en costo entre dos corridas significa que ni siquiera puedes asumir un promedio estable. El costo por tarea no es un punto, es una distribución, y la cola de esa distribución es donde se te va el dinero.
Lo que esto rompe en tu negocio
Si construyes un producto sobre LLMs, esto te toca de dos formas, y conviene verlas claras.
La primera es tu costo de operación. Tu costo de los bienes vendidos no es el precio de lista. Es el precio de lista por el consumo, y el consumo es variable, específico de cada modelo y en parte aleatorio. Si modelaste tu margen con el número de la tabla, modelaste el número equivocado. Lo escribí desde otro ángulo en el post sobre la palanca oculta de costos en IA: el tiempo, donde el batch, el caching y el horario cambian la factura tanto como el modelo.
La segunda es cómo cobras. Si pones una tarifa plana encima de un costo variable, tus usuarios más pesados se hunden bajo el agua sin que lo notes. Le entregaste tu margen a un generador de números aleatorios. Esto conecta directo con algo que ya argumenté: en IA, eres lo que cobras. Cobrar por el resultado solo funciona si sabes cuánto te cuesta producir ese resultado, y aquí está la parte que casi nadie mide.
Y no, ponerle un tope al gasto no lo arregla. Ya lo conté en un tope de 1.500 no cura tu factura de IA: el tope trata el síntoma. La causa es no saber qué tarea corre en qué modelo a qué costo real.
Lo que IQ Source hace con esto
La salida no es elegir el modelo más barato ni el más caro. Es dejar de elegir por la tabla de precios y empezar a elegir por el costo por tarea terminada en tu propio flujo.
Eso exige una disciplina que casi nadie tiene montada. Hay que correr cada modelo candidato sobre tus tareas reales, no sobre un benchmark genérico, medir cuántos tokens y cuántos pasos consume hasta terminar, mirar la cola de la distribución y no solo el promedio, y enrutar cada tipo de trabajo al modelo que lo resuelve más barato de extremo a extremo. A veces el modelo de frontera caro es el más económico para la tarea difícil, y un modelo eficiente basta para la tarea rutinaria. La única forma de saberlo es medirlo en tu contexto.
En IQ Source eso es parte de lo que construimos cuando una empresa nos pone a montar IA sobre su operación. No entregamos “usa este modelo”. Entregamos una tabla de enrutamiento basada en tus tareas, con el costo por trabajo medido, no estimado. Es la diferencia entre comprar por la etiqueta y comprar por la factura.
La próxima vez que alguien en tu equipo proponga cambiar de modelo “porque es más barato”, hazle una pregunta concreta: ¿más barato por token o más barato por tarea terminada? Si la respuesta es “por token”, todavía no sabes lo que va a costar. Lo vas a descubrir en la factura, que es el único número que de verdad pagas.
Mide el costo real de tu IA por tarea, no por tokenPreguntas Frecuentes
Porque no pagas por pregunta, pagas por token, y cada modelo quema una cantidad distinta para resolver lo mismo. Un modelo barato por token puede gastar miles de tokens de razonamiento o dar decenas de pasos donde otro resuelve en pocos. El precio de lista mide el insumo, la factura mide el comportamiento, y casi nunca coinciden.
Es cuando el modelo más barato por token resulta más caro por trabajo terminado. Un estudio de Stanford, Berkeley, CMU y Microsoft lo midió en ocho modelos de razonamiento sobre doce tareas: en casi un tercio de los casos el modelo de menor precio de lista costó más al correrlo, hasta 28 veces más en el peor escenario.
Midiendo el costo por tarea terminada en tu propio flujo, no el precio por token de la tabla. Se corre cada modelo candidato sobre tus tareas reales, se mide cuántos tokens y pasos consume hasta terminar, y se enruta cada tipo de trabajo al modelo que lo resuelve más barato de extremo a extremo. La tarifa de lista es solo el punto de partida.
Porque el consumo de tokens es variable y en parte aleatorio: el mismo modelo con la misma consulta puede variar el costo hasta 9,7 veces entre corridas. Si cobras una tarifa plana encima de eso, tus usuarios más pesados se vuelven no rentables sin que lo notes, y entregas tu margen a un generador de números aleatorios.
Artículos Relacionados
La certeza del experto frena tu adopción de IA
Altman dijo que los científicos más brillantes frenaron la IA por exceso de certeza. En tu empresa pasa igual: la persona más segura suele ser el mayor freno.
En IA, eres lo que cobras, no lo que instalas
Joe Pine lo resume así: eres lo que cobras. Si cobras por la herramienta, estás en el negocio de las herramientas. Cobrar por el resultado te obliga a que el cambio ocurra.