Saltar al contenido principal

Starbucks retira IA de inventario tras 9 meses en 11,000 tiendas

NomadGo prometió 99% de precisión y un conteo 8x más rápido. Starbucks lo desplegó en 11,000 tiendas sin medir contra la barra real. Regresó al manual el lunes.

Starbucks retira IA de inventario tras 9 meses en 11,000 tiendas

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

IA y Automatización 8 min de lectura

Corey Quinn, economista jefe de la nube en Duckbill Group, lo resumió en una sola línea el jueves: “Starbucks corrió un sistema de IA de inventario durante nueve meses antes de apagarlo porque no podía contar ni etiquetar artículos. ¿Dejar que un modelo alucinante dicte órdenes de cadena de suministro físico durante tres trimestres fiscales? Esto parece de grado producción.” (“Starbucks ran an AI inventory system for nine months before shutting it down because it couldn’t actually count or label items. Letting a hallucinating model dictate physical supply chain orders for three fiscal quarters? This seems production grade.”)

Es la frase más exacta de la semana porque captura el problema real. No es que la IA haya fallado. Es que nadie midió la precisión contra el piso de una tienda Starbucks antes de escalar a 11,000 ubicaciones.

El problema no es la IA. Es quién midió la precisión.

El lunes 19 de mayo de 2026, Starbucks mandó un memo interno: “Starting today, Automated Counting will be retired. Beverage components and milk will now be counted the same way you count other inventory categories in your coffeehouse.” (A partir de hoy se retira el conteo automático. Componentes de bebida y leche se contarán como las demás categorías). Reuters publicó la exclusiva el miércoles 21 de mayo. Nueve meses después del despliegue nacional de septiembre 2025.

La cifra que NomadGo, la startup de Redmond, Washington, había prometido es la que importa. 99% de precisión, hasta 8 veces más rápido que el conteo manual. Visión por computadora, inteligencia espacial 3D y realidad aumentada en una tablet. Deb Hall Lefevre, la CTO de Starbucks, citó esa propuesta como la justificación del despliegue.

Nadie pidió la demostración bajo las condiciones reales de operación. Nadie midió el 99% contra una tienda Starbucks llena un viernes a las 7:45 de la mañana, con leches similares en estantes adyacentes, luz cambiante, frigoríficos que se abren cada veinte segundos. Esa medición tampoco la hicieron los baristas. Llegó la tablet, llegó la promesa, llegaron las 11,000 implementaciones.

La frase que Niccol citó al promover la herramienta era de operación, no de demo: “Esta tecnología agiliza una tarea crítica pero laboriosa.” La condición implícita —que la agilización sobrevivía al piso operacional real— nunca se verificó antes de escalar.

Lo que se rompió en la barra

Reuters reportó en febrero de 2026 que la herramienta confundía leches similares, se saltaba botellas y, en el video oficial de lanzamiento que Starbucks subió a su propio canal, no logró reconocer una botella de sirope de menta mientras contaba las botellas adyacentes. Starbucks borró la página de anuncio original. El video con la falla siguió circulando.

Benjamin Angel, en una columna de Warehouse Automation publicada el día después del retiro, lo puso así: “Cuando la automatización vuelve más difícil y más confuso el trabajo del operador, ha fallado.” (“When automation makes a worker’s job harder and more confusing, it has failed.”) La cita resume el mecanismo que rompió la propuesta de NomadGo. La precisión efectiva no era 99%. Era lo suficientemente baja como para que cada escaneo necesitara revisión humana, y un sistema que requiere verificación humana de cada salida no automatiza nada, duplica la tarea.

El piso lo aprendió en semanas, no en nueve meses. Los baristas en Reddit lo describieron sin filtro: “It’s frankly impressive how bad it actually is.” (Es francamente impresionante lo malo que es). La organización formal tardó nueve meses en reaccionar porque la decisión de retirarlo tenía que subir por capas que no estaban midiendo la precisión real, sino el progreso del rollout contra el calendario corporativo.

Ese es el desfase que importa para tu operación. Cuando la métrica que viaja hacia arriba es “porcentaje de tiendas con la herramienta desplegada” y no “tiempo neto de conteo después de las correcciones manuales”, la herramienta puede estar fallando por completo y aun así aparecer en verde en el tablero ejecutivo.

El patrón que tu CFO ya está mirando

El número estructural que enmarca la decisión de Starbucks no es de Reuters. Es del NANDA Initiative del MIT: 95% de los pilotos de IA generativa no entregaron ningún impacto financiero medible, pese a una inversión de entre 30,000 y 40,000 millones de dólares. Starbucks se suma a un patrón que el post sobre la brecha de utilización del 95% cubrió hace semanas y que ahora tiene una tienda física como evidencia.

Stephen Klein en Substack lo llama “the AI Layoff Boomerang” (el bumerang del recorte por IA). Su lista de retiros recientes: Klarna recontrató humanos después de reducir el equipo de servicio al cliente de 5,500 a 3,400, Air Canada fue condenada por su chatbot que inventó una política de reembolso, McDonald’s retiró su sistema de pedidos por IA en autoservicio después de tres años de errores persistentes. Starbucks es el caso retail más visible de 2026, pero no es el primero ni va a ser el último.

Y el patrón se repite incluso fuera de la barra. El post de ayer sobre los $1M de ClickUp y Claude Code cancelado en Microsoft cubrió otra cara del mismo problema. Ahí el costo de tokens hizo insostenible el agente. Aquí la precisión efectiva hizo insostenible la herramienta. Diferentes ejes, misma raíz: la decisión de desplegar se tomó antes de la medición que la habría detenido.

Tu CFO ya está leyendo Reuters. La siguiente pregunta que va a hacer no es teórica. Es: ¿qué piloto de IA tenemos hoy desplegado donde la métrica que viaja hacia arriba es de adopción y no de resultado neto después de las correcciones?

Niccol no abandonó la IA. Cambió qué IA.

El error de lectura más fácil esta semana es concluir que Starbucks renunció a la IA. No es lo que pasó. El mismo Brian Niccol que firmó el retiro de NomadGo continúa el rollout de Green Dot Assist, un asistente conversacional construido sobre Azure OpenAI de Microsoft. El piloto arrancó con 35 tiendas en junio de 2025 y se está expandiendo en el año fiscal 2026 a más ubicaciones en Estados Unidos y Canadá.

La diferencia entre Green Dot Assist y el conteo automático no es la tecnología, es el modo de fallo aceptable. Un asistente conversacional que responde “no estoy seguro” o sugiere una solución incorrecta lo corrige el barista en el siguiente segundo, y el costo de error es bajo. Un sistema de conteo que dice “hay 14 botellas” cuando hay 12 distorsiona el reorden, agota el inventario en tienda, pierde ventas, e impone un costo de verificación que cancela el ahorro de tiempo.

Esa es la lectura que tu equipo tiene que hacer antes de aprobar la siguiente compra de IA. No es IA sí o IA no. Es: ¿el modo de fallo de este agente es recuperable en el siguiente segundo por el operador que lo va a usar? Si no, la precisión que el proveedor te promete tiene que ser verificada en tu piso, no en su laboratorio, antes de escalar más allá del piloto controlado.

Niccol entendió la lección entre uno y otro. No siempre. La diferencia importa para quien está mirando: el accionista, el CFO y el equipo operacional.

El test de aceptación que casi nadie corre

La pregunta operacional concreta que cierra esta semana es una sola. Antes de desplegar IA en cualquier proceso de barra, mostrador, planta o piso, ¿quién corrió el test de aceptación de 90 días con los trabajadores de línea midiendo la precisión efectiva contra las condiciones reales de operación?

No el equipo de innovación. No el proveedor. No HQ. Los trabajadores de línea, el grupo que va a usar la herramienta todos los días, midiendo durante 90 días bajo carga real. Si esa medición no existe o se hizo solo en laboratorio o en tiendas piloto controladas, lo que tienes no es un despliegue listo para 11,000 ubicaciones. Tienes una promesa de proveedor que sobrevivió a una demo.

Ese test es la pieza concreta que el Mapa de la Realidad del Proceso de AI Maestro de IQ Source está diseñado para producir antes del despliegue, no después. Dos meses de descubrimiento que identifican, proceso por proceso, qué realidades del piso van a romper qué supuestos de la IA propuesta. El resultado es un Puntaje de Oportunidad de IA y un gate explícito de Sigue/No Sigue. Los despliegues que pasan el gate son aquellos donde la precisión efectiva en condiciones reales cierra contra el modo de fallo aceptable para esa tarea específica.

Niccol perdió nueve meses, una página de anuncio borrada y un video oficial con la falla circulando para aprender la lección. Tu organización no necesita repetir esa cadena. La oportunidad concreta esta semana es escoger un proceso operacional, uno solo, donde un proveedor te haya prometido precisión en una demo, y antes de firmar la compra, correr la medición en tu piso con los operadores reales durante 90 días.

Si el número aguanta, escalas. Si no aguanta, ahorraste el costo de un retiro público.

Correr el test de aceptación antes de escalar

Preguntas Frecuentes

Starbucks NomadGo AI Maestro precisión IA pilotos IA visión por computadora fracaso operacional IA

Artículos Relacionados

El harness es el moat: el modelo ya es commodity
IA y Automatización
· 8 min de lectura

El harness es el moat: el modelo ya es commodity

Cursor, Devin y Replit corren los mismos tres modelos frontera. Cambias el modelo y los productos siguen. Cambias el harness y se rompen. Ese es el moat.

harness ingeniería de contexto Aakash Gupta
El equipo cuyo razonamiento se puede buscar
IA y Automatización
· 13 min de lectura

El equipo cuyo razonamiento se puede buscar

Aakash Gupta nombró esta semana el sistema que ya corremos en IQ Source: tres capas que hacen buscable el razonamiento del equipo en 15 segundos.

Team OS memoria de equipo Aakash Gupta