Tu IA es rápida. Está acumulando deuda de criterio.
Ricardo Argüello — 14 de abril de 2026
CEO & Fundador
Resumen general
Peter Steinberger, creador de OpenClaw, publicó el 13 de abril algo que vale como diagnóstico económico: los flujos agénticos fallan cuando la gente se saca del loop demasiado pronto. Le pongo nombre contable: deuda de criterio. Cada entrega sin revisión humana acumula intereses que se pagan más tarde, en marca, en decisiones y en rehacer.
- Peter Steinberger nombró el problema real de los agentes: 'La gente se remueve demasiado pronto y espera calidad sin criterio humano en el loop'
- Rick Rubin y Anthropic publicaron 'The Way of Code' en 2025: la IA colapsa el tiempo de ejecución, no el criterio, porque el criterio es una disciplina que no se automatiza
- Ethan Mollick y el estudio de 244 consultores de BCG con Harvard muestran que los 'self-automators' — los que delegan todo — rinden peor que centauros y ciborgs
- Andrej Karpathy retiró en febrero el término 'vibe coding' y ahora defiende 'agentic engineering' con supervisión estructurada. El propio mercado se está corrigiendo
- Tobi Lütke (Shopify) lo dejó por escrito en su memo de abril 2025: el uso reflexivo de IA es baseline, pero el criterio humano sigue arriba de la pirámide
Imagina que contratas a un equipo de becarios ultra rápidos. Escriben reportes, redactan correos y arman propuestas a una velocidad imposible. Pero nadie los revisa. Durante seis meses todo parece magia. En el mes siete empiezan a llegar reclamos de clientes, decisiones raras en el negocio y una marca que ya no suena a ti. La deuda de criterio funciona así: no la ves cuando se acumula, la sientes cuando te cobra intereses.
Resumen generado con IA
Peter Steinberger, el desarrollador austríaco detrás de OpenClaw, publicó ayer algo que vale como diagnóstico contable:
El verdadero fracaso de los flujos agénticos llega cuando la gente se saca del loop demasiado pronto y espera calidad sin criterio humano adentro. Salida fuerte requiere visión, dirección y las preguntas correctas.
Lo leí dos veces. La segunda vez le puse nombre: deuda de criterio.
Es un concepto que llevo varias semanas intentando articular con clientes. Y Steinberger, sin usar la palabra, lo resume en una frase. La deuda de criterio es lo que acumula tu empresa cada vez que un agente entrega algo sin revisión humana. No la ves el primer mes. La empiezas a sentir en el trimestre dos.
Por qué llamarle deuda
La analogía con deuda técnica no es decorativa. Es estructural.
Cuando contratas deuda técnica tomas una decisión consciente: sacrificas mantenibilidad a cambio de velocidad. Sabes que vas a pagar intereses. Tu dashboard de producto los refleja: bugs que reaparecen, despliegues que se vuelven frágiles, ingenieros que empiezan a tenerle miedo al repositorio.
Con deuda de criterio pasa lo mismo, pero los intereses no aparecen en ningún dashboard. Aparecen en lugares más caros. En la reputación de marca cuando tu comunicación empieza a sonar genérica. En decisiones de negocio que nadie se detuvo a cuestionar. En clientes que notan, antes que tú, que ya nadie está revisando nada.
Rick Rubin — el mismo que produjo a Johnny Cash, Adele y System of a Down — colaboró en 2025 con Anthropic en The Way of Code, una reinterpretación del Tao Te Ching para la era de la IA. Su tesis es corta: la IA colapsa el tiempo de ejecución, no el criterio. El criterio sigue siendo humano porque el criterio es una disciplina, no magia.
Trung Phan lo desarmó bien en un ensayo reciente: Jobs, Rubin, y cualquiera que haya mantenido una voz reconocible durante décadas, entrenó un músculo. Ese músculo no vive en ningún modelo. Se entrena revisando, descartando, volviendo a pedir. Cuando sacas a ese músculo del loop, tu salida converge al promedio. Y el promedio de 2026 es, en muchos canales, ruido generado por otras máquinas.
Cómo compone los intereses
La deuda de criterio no es lineal. Compone. Te doy tres loops donde compone más rápido.
Loop de contenido. Tu agente redacta un correo de seguimiento. Tu agente redacta el siguiente. Tu agente redacta la siguiente propuesta. Cada pieza individualmente aceptable. Después de seis meses tu voz de marca se diluyó y ni siquiera notaste el momento. Los clientes ya no te distinguen de las otras tres empresas que usan el mismo modelo con el mismo prompt.
Loop de decisiones. Un agente procesa tickets, clasifica, responde, escala. La regla parece sólida. Pero el 3% de los casos que escala mal no se ve en la métrica general. Con el tiempo ese 3% se convierte en el churn del Q4. Lo vas a racionalizar como “el mercado” cuando en realidad fue acumulación de microdecisiones sin criterio.
Loop de entrenamiento. Esto es más sutil. Si alimentas modelos con texto generado por modelos, la distribución se degrada. Decisions.com lo describió bien: los ecosistemas agénticos sin gobernanza no fallan a gritos. Fallan en silencio. Lógica duplicada acá, salidas en conflicto allá, un prompt que ayer funcionaba y hoy ya no. Termina siendo un sistema que optimiza contra sí mismo.
En los tres loops el patrón es el mismo: ahorras minutos hoy para terminar pagando intereses de golpe más tarde, cuando ya es tarde para renegociar.
El que se sacó del loop rinde menos
Esto no es filosofía. Es medible.
Ethan Mollick, junto con investigadores de Harvard Business School y Boston Consulting Group, corrió un experimento con 244 consultores. Los dividieron en tres modos de trabajo:
- Centauros: dividen tareas. La IA hace X, el humano hace Y. Frontera clara.
- Ciborgs: fusionan. Empiezan una oración, la IA la completa, el humano la edita, vuelta y vuelta.
- Self-automators: delegan casi todo. El humano se saca del loop.
El hallazgo que MIT Sloan destacó: los self-automators produjeron el trabajo más débil. No porque la IA fuera mala. Porque se metieron en lo que Mollick llama la jagged frontier: la zona donde el modelo parece competente, suena competente, pero se equivoca en el núcleo del problema. Sin un humano revisando con criterio entrenado, nadie detectó la equivocación.
Esa es la deuda de criterio medida en un paper revisado por pares.
Karpathy ya lo corrigió en febrero
El mercado mismo está pagando parte de esta deuda en público.
Andrej Karpathy retiró el término “vibe coding” y ahora defiende algo que llama agentic engineering. Su argumento: no estás escribiendo código el 99% del tiempo, estás orquestando agentes y actuando como supervisión. Y hay arte y oficio y expertise en esa supervisión.
Es la misma persona que popularizó “vibe coding” hace un año corrigiéndose. No porque la técnica no funcione. Porque la gente la usó sin el ingrediente que la hacía funcionar: alguien con criterio revisando.
Es la confesión pública de que el default estaba mal configurado.
La receta de Lütke
Tobi Lütke lo puso por escrito en su memo interno de abril 2025: el uso reflexivo de IA es baseline en Shopify. Un empleado que pide nuevo headcount tiene que justificar por qué la tarea no la puede hacer un agente. El memo recorrió LinkedIn y X durante semanas.
Lo que casi nadie citó es la otra mitad del memo: AI como multiplicador, criterio humano arriba. No “IA reemplaza humano”. “IA debajo, criterio humano arriba”. Esa jerarquía es la que paga la deuda de criterio antes de que se acumule.
Una fábrica que produce a toda velocidad sin control de calidad solo acumula inventario muerto. Con la IA pasa igual, pero el inventario es deuda de criterio y no se ve desde la bodega.
Qué hacemos con esto en IQ Source
Nuestro trabajo con clientes en los últimos seis meses se puede describir de una manera nueva después de leer a Steinberger: diseñamos el calendario de amortización de la deuda de criterio.
No es otro framework de gobernanza. Es un método práctico para tres decisiones que los equipos suelen esquivar:
- Los puntos donde el toque humano es innegociable. Criterios de aceptación, tono de marca, decisiones con efectos de segundo orden. El agente propone. El humano firma.
- Cuándo dejar que el agente corra libre. Enumeraciones, primeros borradores, búsquedas, resúmenes. Pedir revisión humana aquí es pagar intereses sin necesidad.
- La interfaz de revisión. La parte que más empresas subestiman. Si revisar cuesta más que rehacer, nadie va a revisar y la deuda se va a seguir acumulando.
Eso es lo que implementamos con Team OS: una capa de gobernanza donde el criterio humano vive dentro del flujo, no encima de él. Y donde la fluidez de roles no se confunde con ausencia de revisión.
Si estás escalando agentes dentro de tu empresa y notaste que algunas entregas ya no te suenan a ti, probablemente ya estás pagando intereses. La pregunta es si quieres diseñar la amortización o dejar que se cobre sola.
Hablemos antes de que el trimestre cierre.
Preguntas Frecuentes
Deuda de criterio es el pasivo acumulado que genera una empresa cuando sus agentes de IA producen entregas sin revisión humana. Funciona como la deuda técnica: ganas velocidad a corto plazo y pagas intereses a mediano plazo en marca, decisiones y rehacer trabajo. Para empresas B2B importa porque los clientes perciben la ausencia de criterio humano antes que los dashboards internos.
Peter Steinberger, creador de OpenClaw, publicó el 13 de abril de 2026 que el verdadero fracaso de los flujos agénticos ocurre cuando la gente se saca demasiado pronto y espera calidad sin criterio humano en el loop. Su fórmula: 'Salida fuerte requiere visión, dirección y las preguntas correctas'. Es un diagnóstico operativo, no filosófico.
Ethan Mollick, junto con investigadores de Harvard y BCG, estudió 244 consultores divididos en tres modos de trabajo: centauros (dividen tareas entre humano y IA), ciborgs (fusionan humano e IA), y self-automators (delegan casi todo). Los self-automators produjeron recomendaciones más débiles porque no detectaron errores en la 'jagged frontier', donde la IA parece competente pero equivoca el núcleo del problema.
La deuda de criterio se amortiza insertando revisión humana donde el costo de un error es alto: criterios de aceptación, revisión de tono de marca, aprobación final de decisiones de negocio. No se trata de frenar al agente, sino de convertir el criterio humano en una capa de gobernanza explícita que vive en el flujo, no encima de él. Ese es el trabajo de IQ Source con Team OS.
Artículos Relacionados
Google No Habla de IA. Invierte $180 Mil Millones.
Google pasó de $30B a $180B en CapEx de IA. Sin keynote, sin narrativa de AGI. Para quien evalúa vendors, esa cifra dice más que cualquier demo de producto.
Tu Equipo Pasa Tickets por Jira. Figma Juega Fútbol Total.
Figma y OpenAI operan con roles fluidos: diseñadores codean, PMs prototipan. Pero Holanda perdió la final del 74. Fluidez sin gobernanza no entrega productos.