Saltar al contenido principal

El modelo barato como anzuelo: captura de ecosistema en IA

Google a $0.25/M tokens, OpenAI a $0.05/M. No es filantropía: es captura de plataforma aplicada a IA. Qué significa para tu independencia como empresa B2B.

El modelo barato como anzuelo: captura de ecosistema en IA

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 9 min de lectura

Google lanzó Gemini 3.1 Flash-Lite a $0.25 por millón de tokens de entrada. OpenAI tiene GPT-5 Nano a $0.05. Y la reacción habitual en LinkedIn es: “la IA se está comoditizando, los precios van a cero”.

No es eso lo que está pasando.

Lo que está pasando es un patrón que ya vimos en maps, en almacenamiento cloud y en bases de datos: ofrecer la capa de entrada casi gratis para capturar la capa donde está el dinero real. Y si tu empresa está adoptando IA a escala, conviene entender la mecánica antes de que el anzuelo se convierta en factura.

Los números que no suman solos

Estos son los precios de entrada por millón de tokens para los modelos de inferencia barata disponibles en marzo de 2026:

ModeloInput / 1M tokensOutput / 1M tokensProveedor
GPT-5 Nano$0.05$0.40OpenAI
Gemini 2.0 Flash-Lite$0.075$0.30Google
GPT-4.1 Nano$0.10$0.40OpenAI
Gemini 3.1 Flash-Lite$0.25$1.50Google
Claude Haiku 4.5$1.00$5.00Anthropic
Gemini 2.5 Pro$1.25$10.00Google

La pregunta estratégica no es “¿cuál es más barato?” — eso es obvio. La pregunta es: si Google y OpenAI pierden dinero o apenas cubren costos de inferencia en estos tiers, ¿qué están ganando a cambio?

Mira la parte de abajo de la tabla. Los modelos premium — ahí está el dinero.

No es competencia. Es construcción de plataforma.

Este patrón tiene nombre en estrategia de negocios: loss leader pricing. Ofreces un producto por debajo del costo para atraer clientes a tu ecosistema, donde los productos rentables los están esperando.

Google lo hizo con Maps. Entre 2013 y 2018, la API de Google Maps era prácticamente gratis. Miles de startups y empresas la integraron en sus productos. Cuando la base instalada era lo suficientemente grande, Google subió los precios un 1,400%. Las empresas que habían construido su producto entero sobre esa API no tenían a dónde ir — el costo de migración era mayor que el aumento de precio.

Amazon hizo lo mismo con AWS. S3 arrancó con precios que hacían imposible competir. Una vez que tus datos, tus pipelines y tu equipo de ingeniería estaban en AWS, el costo de salir era prohibitivo. Los márgenes de Amazon en cloud computing siguen subiendo año tras año.

Ahora la misma lógica se aplica a modelos de IA. El modelo barato atrae volumen. Ese volumen requiere pipelines de datos. Esos pipelines viven en Vertex AI, en Azure OpenAI, en la plataforma cloud del proveedor. Y una vez que la infraestructura está ahí, la demanda de modelos premium — donde están los márgenes reales — se genera sola.

Nadie está conspirando. Simplemente es un funnel de ventas muy efectivo.

Los tres workloads que mueven el dinero real

La adopción empresarial de IA está pasando del ~10% al ~50% de las organizaciones. Pero el crecimiento no lo están generando las tareas complejas de razonamiento — lo generan tres categorías de workload de alto volumen que encajan perfectamente en modelos baratos.

Moderación y clasificación

Cada empresa con un canal digital necesita clasificar contenido: tickets de soporte, comentarios, formularios, solicitudes. Es el workload perfecto para un modelo barato — alto volumen, baja complejidad, tolerancia a latencia mínima.

Si tu empresa procesa 300,000 clasificaciones al mes y cada una consume ~500 tokens de entrada y ~100 tokens de salida:

  • Con Claude Haiku 4.5: ~$150/mes en input + ~$150/mes en output = $300/mes
  • Con GPT-5 Nano: ~$7.50/mes en input + ~$12/mes en output = $19.50/mes

El delta es ~$280/mes, o $3,360/año. Multiplicado por cinco workloads similares, son $16,800/año. La diferencia no es trivial — y es exactamente lo que hace atractivo el cambio.

Pero ese cambio te mete en el ecosistema. Tu equipo configura los pipelines en la consola de OpenAI. Los logs van a su dashboard. Los ajustes finos usan su formato. Y seis meses después, cuando OpenAI suba los precios del tier premium que empezaste a usar para las tareas complejas, el costo de cambiar es mayor que el aumento.

Traducción y catálogos

Google tiene una ventaja injusta en workloads de traducción, y no tiene que ver con la calidad del modelo. Google Translate ya tiene la relación comercial con muchas empresas que hacen traducción a escala. Gemini Flash-Lite se posiciona como el upgrade natural — “ya usas nuestra traducción, ahora usa nuestro modelo para el resto”.

Para una empresa B2B con un catálogo de 50,000 productos en tres idiomas, la diferencia entre $0.25/M y $1.00/M de tokens de entrada puede significar $15,000-$20,000 al año. Es suficiente para justificar la migración. Y una vez que migras, el catálogo, las terminologías personalizadas y los flujos de aprobación viven en la plataforma de Google.

Routing de intención

Lo que importa en routing de intención no es qué modelo usas — es dónde vive la lógica de decisión. Este workload (clasificar qué quiere el usuario antes de actuar) es ideal para modelos baratos: respuestas cortas, latencia crítica, alto volumen. Pero la arquitectura define tu nivel de dependencia:

AspectoRouting acoplado al proveedorRouting desacoplado
Donde vive la lógicaConsola del proveedor (Vertex, Azure)Tu código / tu capa de abstracción
Cambiar de modeloReconfigurar pipelines + reentrenarCambiar una variable de configuración
ObservabilidadDashboard del proveedorTu sistema de monitoreo
Vendor lock-inAltoBajo

La segunda columna requiere más trabajo inicial. Pero tu stack queda bajo tu control.

La arquitectura en cascada: la pieza técnica

La aritmética del modelo por niveles ya la cubrimos en nuestro artículo sobre economía de IA en 2026. Lo que no dije ahí: importa más dónde vive la lógica de routing que qué modelo elijas.

La arquitectura en cascada funciona así: el 90% de las solicitudes van al modelo barato (Flash-Lite, GPT-5 Nano) y solo el 10% que requiere razonamiento complejo escala al modelo premium (Gemini Pro, GPT-5, Claude Sonnet).

La aritmética es convincente. Supongamos un mix de 100,000 solicitudes:

  • Sin cascada (todo al modelo premium a $3/M tokens input): costo ~$300
  • Con cascada (90% a $0.10/M + 10% a $3/M): costo ~$39

Es una reducción del ~87%. La ingeniería es sólida.

Pero hay un detalle que se omite en casi todas las presentaciones de proveedores: dónde vive la lógica de routing.

Si la lógica de cascada está en la consola de Vertex AI o en el playground de OpenAI, el proveedor controla qué se escala y qué no. Si la lógica está en tu código — una función que evalúa la complejidad y decide a qué endpoint enviar — tú controlas.

Técnicamente, son quizás 50 líneas de código de diferencia. Estratégicamente, es lo que separa elegir tu próximo proveedor de que te lo elijan.

El contraargumento que vale la pena hacer

“Multi-proveedor” se escucha bien en una presentación de arquitectura. En la realidad, es caro y complejo.

Mantener integraciones activas con tres proveedores de IA significa tres SDKs, tres formatos de respuesta, tres modelos de pricing, tres conjuntos de rate limits. Para una empresa mediana, el overhead operativo puede superar el ahorro.

El objetivo no es usar todos los modelos del mercado. El objetivo es poder cambiar si necesitas hacerlo. Hay una diferencia entre tener la puerta abierta y cruzarla todos los días.

Tres señales de que el lock-in ya es un riesgo real para tu empresa — más allá del proveedor específico que uses, como detallamos en nuestra guía de selección de proveedores:

  1. Tu equipo dice “el pipeline de Vertex” o “el endpoint de Azure” sin pensarlo. Si la plataforma ya es parte del vocabulario operativo, la migración no es solo técnica — es cultural.
  2. Cambiar el modelo barato de tu aplicación tomaría más de un sprint. Si la respuesta es “tendríamos que tocar doce servicios”, el acoplamiento ya está.
  3. Nunca has probado el mismo workload en otro proveedor. No sabes cuánto costaría, cuánto tardaría, ni si la calidad sería aceptable. Estás asumiendo que el costo de cambio es alto sin haberlo medido.

Qué hacer si ya usas modelos baratos a escala

Cuatro acciones concretas que puedes ejecutar esta semana:

1. Busca las dependencias del SDK en tu código. Un grep -r "openai\|vertexai\|google.generativeai" src/ te dice cuántos archivos dependen directamente del proveedor. Si son más de tres, necesitas una capa de abstracción. Un servidor MCP puede funcionar como esa capa intermedia de abstracción entre tu aplicación y los modelos.

2. Mide tu “switching delta” real. Toma tu workload de mayor volumen. Ejecútalo en el proveedor alternativo más viable. Mide costo, latencia y calidad. Si nunca lo has hecho, no tienes datos para negociar ni para decidir — solo tienes inercia.

3. Pide el acuerdo de pricing por escrito. Si tu precio actual es “negociado” con el proveedor, pregunta: ¿qué pasa si duplico el volumen? ¿Y si lo reduzco a la mitad? ¿Cuánto dura este precio? Los descuentos sin contrato son retención disfrazada de generosidad.

4. Nombra tu fallback para cada workload. Para cada workload en producción, tu equipo debería poder responder: “si mañana el proveedor actual duplica precios o se cae, usamos X”. Si la respuesta es silencio, esa es tu prioridad.

Lo que le decimos a nuestros clientes

Esta es la regla que usamos con nuestros clientes:

  • Menos de 50,000 llamadas/día: Usa el modelo barato que prefieras. El lock-in no es tu problema todavía — el costo de abstraer es mayor que el riesgo. Enfócate en que el producto funcione.

  • 50,000 a 500,000 llamadas/día: Implementa el adapter pattern ahora. Una interfaz común entre tu lógica de negocio y el SDK del proveedor. No necesitas multi-proveedor activo — necesitas que el cambio sea posible en días, no en meses.

  • Más de 500,000 llamadas/día: A este volumen, estás gastando dinero real. La diferencia entre $0.05 y $0.25 por millón de tokens son decenas de miles de dólares al año — y el equipo de ventas de tu proveedor conoce tus números mejor de lo que crees. Aquí es donde los “descuentos agresivos” vienen con compromisos de 12 a 24 meses adjuntos.

Si estás en la segunda o tercera categoría, escríbenos. Una conversación de 45 minutos suele ser suficiente para mapear tu exposición real — y decidir si necesitas actuar ahora o solo tenerlo en el radar.

Preguntas Frecuentes

estrategia de IA vendor lock-in costos de IA Google Gemini OpenAI arquitectura empresarial selección de proveedores

Artículos Relacionados

Somos consultores de IA y a veces decimos: no uses IA
Estrategia Empresarial
· 10 min de lectura

Somos consultores de IA y a veces decimos: no uses IA

Una consultora de IA que dice 'no uses IA' suena contradictorio. Pero es lo más valioso que hacemos por nuestros clientes.

estrategia de IA toma de decisiones ROI de IA
El Empleado 100x Ya Existe (Y Cambia Cómo Contratas)
Estrategia Empresarial
· 7 min de lectura

El Empleado 100x Ya Existe (Y Cambia Cómo Contratas)

Un profesional con dominio de IA produce lo que antes requería un equipo. Jensen Huang lo confirmó en GTC 2026. Así cambia tu estrategia de contratación.

inteligencia artificial talento contratacion