Saltar al contenido principal

Tu IA es rápida. Está acumulando deuda de criterio.

Peter Steinberger lo nombró: cada entrega agéntica sin criterio humano acumula intereses. Se pagan en marca, decisiones y confianza a largo plazo.

Tu IA es rápida. Está acumulando deuda de criterio.

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 6 min de lectura

Peter Steinberger, el desarrollador austríaco detrás de OpenClaw, publicó ayer algo que vale como diagnóstico contable:

El verdadero fracaso de los flujos agénticos llega cuando la gente se saca del loop demasiado pronto y espera calidad sin criterio humano adentro. Salida fuerte requiere visión, dirección y las preguntas correctas.

Lo leí dos veces. La segunda vez le puse nombre: deuda de criterio.

Es un concepto que llevo varias semanas intentando articular con clientes. Y Steinberger, sin usar la palabra, lo resume en una frase. La deuda de criterio es lo que acumula tu empresa cada vez que un agente entrega algo sin revisión humana. No la ves el primer mes. La empiezas a sentir en el trimestre dos.

Por qué llamarle deuda

La analogía con deuda técnica no es decorativa. Es estructural.

Cuando contratas deuda técnica tomas una decisión consciente: sacrificas mantenibilidad a cambio de velocidad. Sabes que vas a pagar intereses. Tu dashboard de producto los refleja: bugs que reaparecen, despliegues que se vuelven frágiles, ingenieros que empiezan a tenerle miedo al repositorio.

Con deuda de criterio pasa lo mismo, pero los intereses no aparecen en ningún dashboard. Aparecen en lugares más caros. En la reputación de marca cuando tu comunicación empieza a sonar genérica. En decisiones de negocio que nadie se detuvo a cuestionar. En clientes que notan, antes que tú, que ya nadie está revisando nada.

Rick Rubin — el mismo que produjo a Johnny Cash, Adele y System of a Down — colaboró en 2025 con Anthropic en The Way of Code, una reinterpretación del Tao Te Ching para la era de la IA. Su tesis es corta: la IA colapsa el tiempo de ejecución, no el criterio. El criterio sigue siendo humano porque el criterio es una disciplina, no magia.

Trung Phan lo desarmó bien en un ensayo reciente: Jobs, Rubin, y cualquiera que haya mantenido una voz reconocible durante décadas, entrenó un músculo. Ese músculo no vive en ningún modelo. Se entrena revisando, descartando, volviendo a pedir. Cuando sacas a ese músculo del loop, tu salida converge al promedio. Y el promedio de 2026 es, en muchos canales, ruido generado por otras máquinas.

Cómo compone los intereses

La deuda de criterio no es lineal. Compone. Te doy tres loops donde compone más rápido.

Loop de contenido. Tu agente redacta un correo de seguimiento. Tu agente redacta el siguiente. Tu agente redacta la siguiente propuesta. Cada pieza individualmente aceptable. Después de seis meses tu voz de marca se diluyó y ni siquiera notaste el momento. Los clientes ya no te distinguen de las otras tres empresas que usan el mismo modelo con el mismo prompt.

Loop de decisiones. Un agente procesa tickets, clasifica, responde, escala. La regla parece sólida. Pero el 3% de los casos que escala mal no se ve en la métrica general. Con el tiempo ese 3% se convierte en el churn del Q4. Lo vas a racionalizar como “el mercado” cuando en realidad fue acumulación de microdecisiones sin criterio.

Loop de entrenamiento. Esto es más sutil. Si alimentas modelos con texto generado por modelos, la distribución se degrada. Decisions.com lo describió bien: los ecosistemas agénticos sin gobernanza no fallan a gritos. Fallan en silencio. Lógica duplicada acá, salidas en conflicto allá, un prompt que ayer funcionaba y hoy ya no. Termina siendo un sistema que optimiza contra sí mismo.

En los tres loops el patrón es el mismo: ahorras minutos hoy para terminar pagando intereses de golpe más tarde, cuando ya es tarde para renegociar.

El que se sacó del loop rinde menos

Esto no es filosofía. Es medible.

Ethan Mollick, junto con investigadores de Harvard Business School y Boston Consulting Group, corrió un experimento con 244 consultores. Los dividieron en tres modos de trabajo:

  • Centauros: dividen tareas. La IA hace X, el humano hace Y. Frontera clara.
  • Ciborgs: fusionan. Empiezan una oración, la IA la completa, el humano la edita, vuelta y vuelta.
  • Self-automators: delegan casi todo. El humano se saca del loop.

El hallazgo que MIT Sloan destacó: los self-automators produjeron el trabajo más débil. No porque la IA fuera mala. Porque se metieron en lo que Mollick llama la jagged frontier: la zona donde el modelo parece competente, suena competente, pero se equivoca en el núcleo del problema. Sin un humano revisando con criterio entrenado, nadie detectó la equivocación.

Esa es la deuda de criterio medida en un paper revisado por pares.

Karpathy ya lo corrigió en febrero

El mercado mismo está pagando parte de esta deuda en público.

Andrej Karpathy retiró el término “vibe coding” y ahora defiende algo que llama agentic engineering. Su argumento: no estás escribiendo código el 99% del tiempo, estás orquestando agentes y actuando como supervisión. Y hay arte y oficio y expertise en esa supervisión.

Es la misma persona que popularizó “vibe coding” hace un año corrigiéndose. No porque la técnica no funcione. Porque la gente la usó sin el ingrediente que la hacía funcionar: alguien con criterio revisando.

Es la confesión pública de que el default estaba mal configurado.

La receta de Lütke

Tobi Lütke lo puso por escrito en su memo interno de abril 2025: el uso reflexivo de IA es baseline en Shopify. Un empleado que pide nuevo headcount tiene que justificar por qué la tarea no la puede hacer un agente. El memo recorrió LinkedIn y X durante semanas.

Lo que casi nadie citó es la otra mitad del memo: AI como multiplicador, criterio humano arriba. No “IA reemplaza humano”. “IA debajo, criterio humano arriba”. Esa jerarquía es la que paga la deuda de criterio antes de que se acumule.

Una fábrica que produce a toda velocidad sin control de calidad solo acumula inventario muerto. Con la IA pasa igual, pero el inventario es deuda de criterio y no se ve desde la bodega.

Qué hacemos con esto en IQ Source

Nuestro trabajo con clientes en los últimos seis meses se puede describir de una manera nueva después de leer a Steinberger: diseñamos el calendario de amortización de la deuda de criterio.

No es otro framework de gobernanza. Es un método práctico para tres decisiones que los equipos suelen esquivar:

  1. Los puntos donde el toque humano es innegociable. Criterios de aceptación, tono de marca, decisiones con efectos de segundo orden. El agente propone. El humano firma.
  2. Cuándo dejar que el agente corra libre. Enumeraciones, primeros borradores, búsquedas, resúmenes. Pedir revisión humana aquí es pagar intereses sin necesidad.
  3. La interfaz de revisión. La parte que más empresas subestiman. Si revisar cuesta más que rehacer, nadie va a revisar y la deuda se va a seguir acumulando.

Eso es lo que implementamos con Team OS: una capa de gobernanza donde el criterio humano vive dentro del flujo, no encima de él. Y donde la fluidez de roles no se confunde con ausencia de revisión.

Si estás escalando agentes dentro de tu empresa y notaste que algunas entregas ya no te suenan a ti, probablemente ya estás pagando intereses. La pregunta es si quieres diseñar la amortización o dejar que se cobre sola.

Hablemos antes de que el trimestre cierre.

Preguntas Frecuentes

deuda de criterio IA agéntica gobernanza IA Peter Steinberger Rick Rubin Team OS criterio humano

Artículos Relacionados

Google No Habla de IA. Invierte $180 Mil Millones.
Estrategia Empresarial
· 9 min de lectura

Google No Habla de IA. Invierte $180 Mil Millones.

Google pasó de $30B a $180B en CapEx de IA. Sin keynote, sin narrativa de AGI. Para quien evalúa vendors, esa cifra dice más que cualquier demo de producto.

Google CapEx TPU
Tu Equipo Pasa Tickets por Jira. Figma Juega Fútbol Total.
Estrategia Empresarial
· 7 min de lectura

Tu Equipo Pasa Tickets por Jira. Figma Juega Fútbol Total.

Figma y OpenAI operan con roles fluidos: diseñadores codean, PMs prototipan. Pero Holanda perdió la final del 74. Fluidez sin gobernanza no entrega productos.

fútbol total Figma OpenAI