¿Por qué un modelo de IA más barato por token puede costar más por tarea?

Porque no pagas por pregunta, pagas por token, y cada modelo quema una cantidad distinta para resolver lo mismo. Un modelo barato por token puede gastar miles de tokens de razonamiento o dar decenas de pasos donde otro resuelve en pocos. El precio de lista mide el insumo, la factura mide el comportamiento, y casi nunca coinciden.

¿Qué es el fenómeno de reversión de precio en modelos de IA?

Es cuando el modelo más barato por token resulta más caro por trabajo terminado. Un estudio de Stanford, Berkeley, CMU y Microsoft lo midió en ocho modelos de razonamiento sobre doce tareas: en casi un tercio de los casos el modelo de menor precio de lista costó más al correrlo, hasta 28 veces más en el peor escenario.

¿Cómo se elige el modelo de IA más barato realmente para una tarea?

Midiendo el costo por tarea terminada en tu propio flujo, no el precio por token de la tabla. Se corre cada modelo candidato sobre tus tareas reales, se mide cuántos tokens y pasos consume hasta terminar, y se enruta cada tipo de trabajo al modelo que lo resuelve más barato de extremo a extremo. La tarifa de lista es solo el punto de partida.

¿Por qué es riesgoso cobrar una tarifa plana de IA sobre un costo por token variable?

Porque el consumo de tokens es variable y en parte aleatorio: el mismo modelo con la misma consulta puede variar el costo hasta 9,7 veces entre corridas. Si cobras una tarifa plana encima de eso, tus usuarios más pesados se vuelven no rentables sin que lo notes, y entregas tu margen a un generador de números aleatorios.

www.iqsource.ai

El precio por token miente: mide el costo por tarea

Ricardo Argüello

El precio por token miente: mide el costo por tarea

Ricardo Argüello — 21 de junio de 2026

Ricardo Argüello

CEO & Fundador

21 de junio de 2026 Estrategia Empresarial 5 min de lectura

El precio por token es un número de marketing. La factura es un número de comportamiento. Y casi nunca están ni en el mismo orden.

Esa es la tesis de este post, y tiene una consecuencia directa para cualquiera que construya sobre IA o que esté presupuestando su gasto: elegir modelo por el precio de la tabla es elegir por el número equivocado. El barato por token puede salirte más caro por trabajo terminado, y a veces por mucho. La competencia que importa no es encontrar el modelo más barato de la lista, es medir cuánto te cuesta de verdad cada tarea y enrutar el trabajo al modelo correcto. Eso es lo que montamos cuando construimos sobre modelos, y el resto del post explica por qué.

El número que miente, con datos

Serge Herkül, que asesora a empresas SaaS en precios, lo planteó con un caso que duele: Gemini 3 Flash se lista 80% más barato que GPT-5.4. Al correr doce tareas reales, costó 38% más.

No es una anomalía. Herkül cita un estudio de Stanford, Berkeley, CMU y Microsoft, titulado “The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More”, que corrió ocho modelos de razonamiento sobre doce tareas y comparó el precio de lista con la factura real. En casi un tercio de los enfrentamientos, el modelo “más barato” costó más. En el peor caso, 28 veces más.

Los detalles explican por qué. Un modelo gastó 60.000 tokens de razonamiento en un problema que otro resolvió en 25. En una tarea de agente, uno dio 57 pasos donde otro dio 7. Y la parte más incómoda para quien intenta presupuestar: el mismo modelo, con la misma consulta, varió el costo hasta 9,7 veces entre corridas.

Quita la IA de la ecuación y queda una lección de precios tan vieja como el comercio: el precio unitario no es el costo total.

Por qué el barato sale caro

La mecánica es simple cuando la ves. No pagas por pregunta. Pagas por token. Y cada modelo quema una cantidad distinta de tokens para llegar a la misma respuesta.

Un modelo con precio de lista bajo puede ser un modelo que piensa de más. Razona en voz alta durante miles de tokens antes de contestar, o se mete en un bucle de pasos cuando actúa como agente, o vuelve a leer el mismo contexto una y otra vez. Cada uno de esos tokens cuesta, aunque cada token individual sea barato. El modelo caro por token a veces va directo al punto, gasta una fracción de los tokens y termina costando menos por trabajo.

Y encima está la variabilidad. Que el mismo modelo con la misma consulta oscile casi diez veces en costo entre dos corridas significa que ni siquiera puedes asumir un promedio estable. El costo por tarea no es un punto, es una distribución, y la cola de esa distribución es donde se te va el dinero.

Lo que esto rompe en tu negocio

Si construyes un producto sobre LLMs, esto te toca de dos formas, y conviene verlas claras.

La primera es tu costo de operación. Tu costo de los bienes vendidos no es el precio de lista. Es el precio de lista por el consumo, y el consumo es variable, específico de cada modelo y en parte aleatorio. Si modelaste tu margen con el número de la tabla, modelaste el número equivocado. Lo escribí desde otro ángulo en el post sobre la palanca oculta de costos en IA: el tiempo, donde el batch, el caching y el horario cambian la factura tanto como el modelo.

La segunda es cómo cobras. Si pones una tarifa plana encima de un costo variable, tus usuarios más pesados se hunden bajo el agua sin que lo notes. Le entregaste tu margen a un generador de números aleatorios. Esto conecta directo con algo que ya argumenté: en IA, eres lo que cobras. Cobrar por el resultado solo funciona si sabes cuánto te cuesta producir ese resultado, y aquí está la parte que casi nadie mide.

Y no, ponerle un tope al gasto no lo arregla. Ya lo conté en un tope de 1.500 no cura tu factura de IA: el tope trata el síntoma. La causa es no saber qué tarea corre en qué modelo a qué costo real.

Lo que IQ Source hace con esto

La salida no es elegir el modelo más barato ni el más caro. Es dejar de elegir por la tabla de precios y empezar a elegir por el costo por tarea terminada en tu propio flujo.

Eso exige una disciplina que casi nadie tiene montada. Hay que correr cada modelo candidato sobre tus tareas reales, no sobre un benchmark genérico, medir cuántos tokens y cuántos pasos consume hasta terminar, mirar la cola de la distribución y no solo el promedio, y enrutar cada tipo de trabajo al modelo que lo resuelve más barato de extremo a extremo. A veces el modelo de frontera caro es el más económico para la tarea difícil, y un modelo eficiente basta para la tarea rutinaria. La única forma de saberlo es medirlo en tu contexto.

En IQ Source eso es parte de lo que construimos cuando una empresa nos pone a montar IA sobre su operación. No entregamos “usa este modelo”. Entregamos una tabla de enrutamiento basada en tus tareas, con el costo por trabajo medido, no estimado. Es la diferencia entre comprar por la etiqueta y comprar por la factura.

La próxima vez que alguien en tu equipo proponga cambiar de modelo “porque es más barato”, hazle una pregunta concreta: ¿más barato por token o más barato por tarea terminada? Si la respuesta es “por token”, todavía no sabes lo que va a costar. Lo vas a descubrir en la factura, que es el único número que de verdad pagas.

Mide el costo real de tu IA por tarea, no por token

Preguntas Frecuentes

costos de IA economía de IA selección de modelos enrutamiento de modelos precios de IA AI Maestro estrategia de IA

El precio por token miente: mide el costo por tarea

El precio por token miente: mide el costo por tarea

Resumen general

El número que miente, con datos

Por qué el barato sale caro

Lo que esto rompe en tu negocio

Lo que IQ Source hace con esto

Preguntas Frecuentes

Artículos Relacionados

La certeza del experto frena tu adopción de IA

En IA, eres lo que cobras, no lo que instalas

Asistente IQ Source