Los cuatro loops que reemplazaron al prompt engineering
Ricardo Argüello — 25 de junio de 2026
CEO & Fundador
Resumen general
LangChain publicó el esquema de cuatro loops que hace que un agente pase de responder prompts a mejorar sus propios prompts mientras duermes. Tom Osman lo corrió en producción y produjo 183 historias de usuario con su plataforma. La conclusión que importa: dejas de ser el que escribe prompts y construyes el sistema que los escribe por ti.
- El loop 1 es el agente básico que ya tienes: modelo llama herramienta, lee resultado, llama otra herramienta, termina la tarea. Es el piso, no el techo.
- El loop 2 agrega verificación automática: un calificador revisa el output contra un criterio y si no pasa, retroalimenta al agente para que reintente sin intervención humana.
- El loop 3 hace que el sistema espere eventos en lugar de esperar que tú lo invoques: un mensaje en Slack, un webhook, un cron de las 3am. Nadie lo llama; simplemente corre.
- El loop 4 cierra el ciclo: cada ejecución deja un rastro, un agente analiza esos rastros, encuentra los patrones de falla recurrentes y reescribe el prompt y la configuración del loop 1.
- El modelo no es el diferenciador. El sistema de loops que construyes alrededor del modelo es lo que compone valor con el tiempo.
Imagina que tienes un empleado muy capaz pero que solo trabaja cuando tú le dices qué hacer, cómo hacerlo y si lo hizo bien. Ahora imagina que ese empleado aprende solo de sus errores, trabaja sin que nadie lo llame y, con el tiempo, reescribe sus propias instrucciones para hacerlo mejor. La diferencia entre el primero y el segundo no es el empleado, es el sistema que armaste alrededor de él. Eso es lo que hacen los cuatro loops.
Resumen generado con IA
La semana pasada, Tom Osman publicó algo que acumuló 1.1 millones de visualizaciones en X. No era una demo de un modelo nuevo. Era una instrucción de una sola entrada que le dio a su agente en Codex: define el objetivo, catalogar cada funcionalidad de la plataforma como una historia de usuario, seguir con un loop de prueba de cada historia, luego corregir cada error. Solo.
El resultado: 183 historias de usuario, 105 rutas de página y semanas de QA manual automatizadas en un solo ciclo nocturno.
Lo que hizo Osman no es prompt engineering avanzado. Es algo cualitativamente distinto. Dejó de ser el que escribe prompts y se convirtió en el que construye el sistema que escribe prompts por él. Esa es la tesis de este post, y es la misma que LangChain articuló en el esquema de cuatro loops que publicó la semana pasada.
Loop 1: el agente que ya tienes
El primer loop es el que casi todo el mundo tiene: el agente llama una herramienta, lee el resultado, llama otra herramienta y sigue hasta que termina la tarea. Le das contexto, le das herramientas, lo dejas correr hasta que dice que terminó.
LangChain lo llama el primitivo base, y la descripción más honesta que encontré para este nivel es que es un autocompletado más caro. Si tu uso de IA se queda aquí, lo que tienes es una ventana de chat con pasos. Útil, pero no es el cambio de categoría que prometen los titulares.
Loop 2: el que verifica sin que tú estés
El segundo loop es donde empieza a ponerse interesante. El agente termina una tarea y en lugar de presentarte el resultado para que tú lo apruebes, un calificador lo revisa contra un criterio. Si no pasa la calificación, la retroalimentación vuelve al agente y reintenta. Sin intervención humana.
Hay dos tipos de verificación: determinista para lo objetivo (¿el enlace resuelve?, ¿el CI pasa?, ¿el scope coincide con la instrucción?) y criterio de LLM como juez para lo subjetivo (¿respondió la pregunta?, ¿el tono es correcto?, ¿la solución es segura?). El costo es real: 2 o 3 veces más tokens por tarea. Y el argumento que hace LangChain es correcto: una respuesta incorrecta en producción cuesta más que mil reintentos automatizados.
El loop 2 es donde el 90% de los equipos se detiene. Y es exactamente donde está la mayor parte del valor sin capturar, lo que conecta con el argumento de los agentes autónomos en LatAm: la verificación automática es lo que convierte un piloto en algo que puede escalar.
Loop 3: el que nadie tiene que invocar
El loop 3 hace algo cualitativamente distinto: el agente deja de esperar que alguien lo llame. Un mensaje en un canal de Slack lo activa. Un webhook de una integración lo activa. Un cron de las 3am lo activa. Nadie abre una terminal, nadie hace clic en un botón.
Aquí el agente deja de ser una herramienta que visitas y se convierte en algo que vive dentro de los sistemas donde el trabajo ya ocurre. Como lo argumenté en la IA como infraestructura: la infraestructura no se visita, está debajo de todo lo que ya haces. El loop 3 es el momento en que el agente se vuelve infraestructura.
Loop 4: el que se reescribe solo
El cuarto loop es el que Osman activó y el que causa la mayor incredulidad cuando lo describes. Cada ejecución deja un rastro. Un agente de análisis lee esos rastros, identifica los patrones de falla recurrentes, los sesgos sistemáticos, los tipos de tarea donde el agente bajo-rinde, y reescribe el prompt y la configuración del loop 1.
Al día siguiente, el agente empieza con una versión mejorada de sus propias instrucciones. Sin que nadie haya tocado el código. Sin que nadie haya analizado los logs manualmente.
La matemática que circula sobre esto es simple: una mejora del 1% diaria compone a 37 veces en un año. 1.01^365 = 37.8. Los detalles de cómo se mide esa mejora y cómo se valida que no está empezando en ninguna dirección son reales y requieren trabajo, pero el principio es correcto. El agente con loop 4 es cualitativamente distinto al agente que entregaste el primer día.
Lo que esto significa para construir con IA
La pregunta que más debería preocuparte en IA no es “¿qué modelo uso?” sino “¿en qué nivel de loop estoy operando, y qué me impide subir al siguiente?”. El modelo es intercambiable. El sistema de loops que construyes alrededor del modelo es lo que compone valor con el tiempo.
El harness que mantiene el agente honesto, lo hace verificar su propio output, lo activa por eventos y lo hace mejorar con sus propios rastros: eso es lo que no se compra en una suscripción. Como lo argumenté en el harness es el moat: el modelo es commodity, lo que construyes a su alrededor no lo es.
En IQ Source, lo que construimos en la fase de implementación de AI Maestro no es un agente con loop 1. Es el sistema de loops completo, con verificación, activación por eventos y trazabilidad para el loop de mejora. La diferencia entre un piloto que impresiona y un agente que sigue mejorando después de que nosotros nos vamos es exactamente la diferencia entre loop 1 y loop 4.
Construye el sistema de loops, no solo el agentePreguntas Frecuentes
Son cuatro capas de automatización que se acumulan: el loop del agente (ejecuta tareas), el loop de verificación (se autocorrige sin intervención humana), el loop por eventos (corre solo cuando ocurre algo en la operación) y el loop de mejora (analiza sus propios errores y reescribe su configuración). Juntos hacen que el agente mejore con el tiempo sin que nadie lo reprograme.
Porque el prompt engineering asume que un humano sigue revisando y ajustando los prompts después de cada ejecución. A escala, eso no funciona. Los cuatro loops reemplazan esa intervención humana con verificación automática, ejecución por eventos y mejora autónoma basada en el historial de ejecuciones previas.
Cada ejecución del agente deja un rastro con resultados, errores y métricas. Un agente de análisis lee esos rastros, identifica los patrones de falla recurrentes y reescribe el prompt y la configuración del agente principal. Al día siguiente, el agente empieza con una versión mejorada de sus propias instrucciones, sin que nadie haya tocado el código.
Un chatbot responde cuando alguien lo llama y con los prompts que alguien escribió. Un agente con cuatro loops corre solo cuando detecta un evento, verifica su propio output contra un criterio de calidad, y mejora sus instrucciones con el tiempo. La diferencia no está en el modelo sino en el sistema de control construido alrededor del modelo.
Artículos Relacionados
Block no compró un chatbot. Construyó un sistema.
Block montó Builderbot: lo etiquetas en Slack e investiga, planea y entrega. 1.500 PRs por semana, 15% del código en producción. La interfaz que gana es la conversación.
La IA no se aburre manteniendo tu wiki. Pero no verifica.
Google formalizó el Open Knowledge Format para que los agentes mantengan tu documentación. Estandariza la estructura, no la verdad. Ahí está el problema real.