El modelo barato como anzuelo: captura de ecosistema en IA
Ricardo Argüello — 4 de marzo de 2026
CEO & Fundador
Resumen general
Gemini Flash-Lite a $0.25 por millón de tokens y GPT-5 Nano a $0.05 no son señales de que la IA se está comoditizando — son la parte superior de un funnel de ventas muy bien diseñado. El patrón es conocido: el modelo barato captura volumen, ese volumen construye dependencia en la plataforma, y los márgenes reales llegan cuando ya no te puedes ir.
- Google y OpenAI pierden dinero o apenas cubren costos en los modelos baratos — la ganancia viene de la plataforma completa
- Es el mismo patrón que Google usó con Maps y Amazon con AWS: entrada gratis, dependencia progresiva, factura después
- Tres señales de lock-in: no puedes nombrar alternativa, reemplazar el SDK tomaría más de dos semanas, o tu precio es negociado
- La arquitectura en cascada (90% modelo barato, 10% premium) reduce costos entre 60% y 70%
- La clave es que la lógica de routing viva en tu código, no en la consola del proveedor
Imagina que un supermercado te ofrece la leche casi regalada. No es por generosidad — es porque saben que una vez adentro, vas a comprar todo lo demás ahí. Los modelos de IA baratos funcionan igual: el precio bajo te atrae, pero lo que buscan es que construyas todo tu negocio sobre su plataforma. Cuando ya dependes de ellos, los costos reales aparecen.
Resumen generado con IA
Google lanzó Gemini 3.1 Flash-Lite a $0.25 por millón de tokens de entrada. OpenAI tiene GPT-5 Nano a $0.05. Y la reacción habitual en LinkedIn es: “la IA se está comoditizando, los precios van a cero”.
No es eso lo que está pasando.
Lo que está pasando es un patrón que ya vimos en maps, en almacenamiento cloud y en bases de datos: ofrecer la capa de entrada casi gratis para capturar la capa donde está el dinero real. Y si tu empresa está adoptando IA a escala, conviene entender la mecánica antes de que el anzuelo se convierta en factura.
Los números que no suman solos
Estos son los precios de entrada por millón de tokens para los modelos de inferencia barata disponibles en marzo de 2026:
| Modelo | Input / 1M tokens | Output / 1M tokens | Proveedor |
|---|---|---|---|
| GPT-5 Nano | $0.05 | $0.40 | OpenAI |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 | |
| GPT-4.1 Nano | $0.10 | $0.40 | OpenAI |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | |
| Claude Haiku 4.5 | $1.00 | $5.00 | Anthropic |
| Gemini 2.5 Pro | $1.25 | $10.00 |
La pregunta estratégica no es “¿cuál es más barato?” — eso es obvio. La pregunta es: si Google y OpenAI pierden dinero o apenas cubren costos de inferencia en estos tiers, ¿qué están ganando a cambio?
Mira la parte de abajo de la tabla. Los modelos premium — ahí está el dinero.
No es competencia. Es construcción de plataforma.
Este patrón tiene nombre en estrategia de negocios: loss leader pricing. Ofreces un producto por debajo del costo para atraer clientes a tu ecosistema, donde los productos rentables los están esperando.
Google lo hizo con Maps. Entre 2013 y 2018, la API de Google Maps era prácticamente gratis. Miles de startups y empresas la integraron en sus productos. Cuando la base instalada era lo suficientemente grande, Google subió los precios un 1,400%. Las empresas que habían construido su producto entero sobre esa API no tenían a dónde ir — el costo de migración era mayor que el aumento de precio.
Amazon hizo lo mismo con AWS. S3 arrancó con precios que hacían imposible competir. Una vez que tus datos, tus pipelines y tu equipo de ingeniería estaban en AWS, el costo de salir era prohibitivo. Los márgenes de Amazon en cloud computing siguen subiendo año tras año.
Ahora la misma lógica se aplica a modelos de IA. El modelo barato atrae volumen. Ese volumen requiere pipelines de datos. Esos pipelines viven en Vertex AI, en Azure OpenAI, en la plataforma cloud del proveedor. Y una vez que la infraestructura está ahí, la demanda de modelos premium — donde están los márgenes reales — se genera sola.
Nadie está conspirando. Simplemente es un funnel de ventas muy efectivo.
Los tres workloads que mueven el dinero real
La adopción empresarial de IA está pasando del ~10% al ~50% de las organizaciones. Pero el crecimiento no lo están generando las tareas complejas de razonamiento — lo generan tres categorías de workload de alto volumen que encajan perfectamente en modelos baratos.
Moderación y clasificación
Cada empresa con un canal digital necesita clasificar contenido: tickets de soporte, comentarios, formularios, solicitudes. Es el workload perfecto para un modelo barato — alto volumen, baja complejidad, tolerancia a latencia mínima.
Si tu empresa procesa 300,000 clasificaciones al mes y cada una consume ~500 tokens de entrada y ~100 tokens de salida:
- Con Claude Haiku 4.5: ~$150/mes en input + ~$150/mes en output = $300/mes
- Con GPT-5 Nano: ~$7.50/mes en input + ~$12/mes en output = $19.50/mes
El delta es ~$280/mes, o $3,360/año. Multiplicado por cinco workloads similares, son $16,800/año. La diferencia no es trivial — y es exactamente lo que hace atractivo el cambio.
Pero ese cambio te mete en el ecosistema. Tu equipo configura los pipelines en la consola de OpenAI. Los logs van a su dashboard. Los ajustes finos usan su formato. Y seis meses después, cuando OpenAI suba los precios del tier premium que empezaste a usar para las tareas complejas, el costo de cambiar es mayor que el aumento.
Traducción y catálogos
Google tiene una ventaja injusta en workloads de traducción, y no tiene que ver con la calidad del modelo. Google Translate ya tiene la relación comercial con muchas empresas que hacen traducción a escala. Gemini Flash-Lite se posiciona como el upgrade natural — “ya usas nuestra traducción, ahora usa nuestro modelo para el resto”.
Para una empresa B2B con un catálogo de 50,000 productos en tres idiomas, la diferencia entre $0.25/M y $1.00/M de tokens de entrada puede significar $15,000-$20,000 al año. Es suficiente para justificar la migración. Y una vez que migras, el catálogo, las terminologías personalizadas y los flujos de aprobación viven en la plataforma de Google.
Routing de intención
Lo que importa en routing de intención no es qué modelo usas — es dónde vive la lógica de decisión. Este workload (clasificar qué quiere el usuario antes de actuar) es ideal para modelos baratos: respuestas cortas, latencia crítica, alto volumen. Pero la arquitectura define tu nivel de dependencia:
| Aspecto | Routing acoplado al proveedor | Routing desacoplado |
|---|---|---|
| Donde vive la lógica | Consola del proveedor (Vertex, Azure) | Tu código / tu capa de abstracción |
| Cambiar de modelo | Reconfigurar pipelines + reentrenar | Cambiar una variable de configuración |
| Observabilidad | Dashboard del proveedor | Tu sistema de monitoreo |
| Vendor lock-in | Alto | Bajo |
La segunda columna requiere más trabajo inicial. Pero tu stack queda bajo tu control.
La arquitectura en cascada: la pieza técnica
La aritmética del modelo por niveles ya la cubrimos en nuestro artículo sobre economía de IA en 2026. Lo que no dije ahí: importa más dónde vive la lógica de routing que qué modelo elijas.
La arquitectura en cascada funciona así: el 90% de las solicitudes van al modelo barato (Flash-Lite, GPT-5 Nano) y solo el 10% que requiere razonamiento complejo escala al modelo premium (Gemini Pro, GPT-5, Claude Sonnet).
La aritmética es convincente. Supongamos un mix de 100,000 solicitudes:
- Sin cascada (todo al modelo premium a $3/M tokens input): costo ~$300
- Con cascada (90% a $0.10/M + 10% a $3/M): costo ~$39
Es una reducción del ~87%. La ingeniería es sólida.
Pero hay un detalle que se omite en casi todas las presentaciones de proveedores: dónde vive la lógica de routing.
Si la lógica de cascada está en la consola de Vertex AI o en el playground de OpenAI, el proveedor controla qué se escala y qué no. Si la lógica está en tu código — una función que evalúa la complejidad y decide a qué endpoint enviar — tú controlas.
Técnicamente, son quizás 50 líneas de código de diferencia. Estratégicamente, es lo que separa elegir tu próximo proveedor de que te lo elijan.
El contraargumento que vale la pena hacer
“Multi-proveedor” se escucha bien en una presentación de arquitectura. En la realidad, es caro y complejo.
Mantener integraciones activas con tres proveedores de IA significa tres SDKs, tres formatos de respuesta, tres modelos de pricing, tres conjuntos de rate limits. Para una empresa mediana, el overhead operativo puede superar el ahorro.
El objetivo no es usar todos los modelos del mercado. El objetivo es poder cambiar si necesitas hacerlo. Hay una diferencia entre tener la puerta abierta y cruzarla todos los días.
Tres señales de que el lock-in ya es un riesgo real para tu empresa — más allá del proveedor específico que uses, como detallamos en nuestra guía de selección de proveedores:
- Tu equipo dice “el pipeline de Vertex” o “el endpoint de Azure” sin pensarlo. Si la plataforma ya es parte del vocabulario operativo, la migración no es solo técnica — es cultural.
- Cambiar el modelo barato de tu aplicación tomaría más de un sprint. Si la respuesta es “tendríamos que tocar doce servicios”, el acoplamiento ya está.
- Nunca has probado el mismo workload en otro proveedor. No sabes cuánto costaría, cuánto tardaría, ni si la calidad sería aceptable. Estás asumiendo que el costo de cambio es alto sin haberlo medido.
Qué hacer si ya usas modelos baratos a escala
Cuatro acciones concretas que puedes ejecutar esta semana:
1. Busca las dependencias del SDK en tu código.
Un grep -r "openai\|vertexai\|google.generativeai" src/ te dice cuántos archivos dependen directamente del proveedor. Si son más de tres, necesitas una capa de abstracción. Un servidor MCP puede funcionar como esa capa intermedia de abstracción entre tu aplicación y los modelos.
2. Mide tu “switching delta” real. Toma tu workload de mayor volumen. Ejecútalo en el proveedor alternativo más viable. Mide costo, latencia y calidad. Si nunca lo has hecho, no tienes datos para negociar ni para decidir — solo tienes inercia.
3. Pide el acuerdo de pricing por escrito. Si tu precio actual es “negociado” con el proveedor, pregunta: ¿qué pasa si duplico el volumen? ¿Y si lo reduzco a la mitad? ¿Cuánto dura este precio? Los descuentos sin contrato son retención disfrazada de generosidad.
4. Nombra tu fallback para cada workload. Para cada workload en producción, tu equipo debería poder responder: “si mañana el proveedor actual duplica precios o se cae, usamos X”. Si la respuesta es silencio, esa es tu prioridad.
Lo que le decimos a nuestros clientes
Esta es la regla que usamos con nuestros clientes:
-
Menos de 50,000 llamadas/día: Usa el modelo barato que prefieras. El lock-in no es tu problema todavía — el costo de abstraer es mayor que el riesgo. Enfócate en que el producto funcione.
-
50,000 a 500,000 llamadas/día: Implementa el adapter pattern ahora. Una interfaz común entre tu lógica de negocio y el SDK del proveedor. No necesitas multi-proveedor activo — necesitas que el cambio sea posible en días, no en meses.
-
Más de 500,000 llamadas/día: A este volumen, estás gastando dinero real. La diferencia entre $0.05 y $0.25 por millón de tokens son decenas de miles de dólares al año — y el equipo de ventas de tu proveedor conoce tus números mejor de lo que crees. Aquí es donde los “descuentos agresivos” vienen con compromisos de 12 a 24 meses adjuntos.
Si estás en la segunda o tercera categoría, escríbenos. Una conversación de 45 minutos suele ser suficiente para mapear tu exposición real — y decidir si necesitas actuar ahora o solo tenerlo en el radar.
Preguntas Frecuentes
Sí, ese es el objetivo comercial. Los proveedores ofrecen modelos económicos para que las empresas construyan flujos de trabajo completos sobre su ecosistema. Una vez que tu lógica, datos y automatizaciones dependen de un proveedor específico, migrar tiene un costo alto. Usar modelos baratos está bien si entiendes la estrategia detrás del precio.
Es un patrón donde el 90% de las solicitudes van al modelo barato y solo el 10% escala al modelo premium. Reduce costos entre 60% y 70%. La clave es que la lógica de routing viva en tu código, no en la consola del proveedor, porque eso es lo que te permite cambiar de modelo sin reescribir tu aplicación.
Tres señales concretas: no puedes nombrar una alternativa viable para tu workload principal, reemplazar el SDK del proveedor actual tomaría más de dos semanas, o tu precio es negociado — lo que significa que perderías el descuento al cambiar. Si marcas dos de tres, el lock-in ya está operando.
Es inversión en adquisición de clientes, no generosidad. El modelo barato atrae volumen de solicitudes, ese volumen requiere pipelines de datos, esos pipelines viven en la plataforma cloud del proveedor, y esa infraestructura genera demanda de modelos premium. Es la parte superior del funnel de ventas.
Artículos Relacionados
Somos consultores de IA y a veces decimos: no uses IA
Una consultora de IA que dice 'no uses IA' suena contradictorio. Pero es lo más valioso que hacemos por nuestros clientes.
El Empleado 100x Ya Existe (Y Cambia Cómo Contratas)
Un profesional con dominio de IA produce lo que antes requería un equipo. Jensen Huang lo confirmó en GTC 2026. Así cambia tu estrategia de contratación.