El moat agéntico no es el modelo. Son siete archivos.
Ricardo Argüello — 1 de mayo de 2026
CEO & Fundador
Resumen general
Elvis Saravia publicó el 29 de abril el paper de Jiahang Lin et al. (Fudan + Peking + Shanghai Qiji Zhifeng) sobre Agentic Harness Engineering. Todos los hilos citaron la cifra que sube: pass@1 en Terminal-Bench 2 de 69.7% a 77.0% en diez iteraciones, sin cambiar el modelo base. Casi nadie citó la cifra que baja: cuando los investigadores agregaron cada uno de los siete componentes del harness al baseline aislado, el system prompt fue el único que retrocedió (-2.3pp). Los otros seis (memoria, herramientas, middleware, skills, sub-agentes, descripciones de tools) todos suben. Tres años de prompt engineering como industria optimizaron la capa con menos palanca del harness. Las palancas están en los otros seis archivos.
- Paper arxiv 2604.25850v3 (30 de abril, autores chinos de Fudan + Peking + Qiji Zhifeng) prueba que el mismo modelo + harness evolucionado bate al harness humano de Codex-CLI por 5.1 puntos en Terminal-Bench 2
- Tabla 3 del paper aísla el efecto de cada componente: + memoria sola (+5.6pp), + herramientas solas (+3.3pp), + middleware solo (+2.2pp), + system prompt solo (-2.3pp). El prompt fue el único componente que retrocedió cuando se aisló del resto
- El harness evolucionado se transfiere a otros modelos sin reentrenar: +5.1 a +10.1 puntos cruzando familias (deepseek-v4-flash, qwen-3.6-plus, gemini-3.1-flash-lite). Eso es el moat empírico que código-no-es-barato apuntaba en abstracto
- El loop tiene un asterisco: precisión de fix predicho 33.7% (5x baseline aleatorio), precisión de regresión predicha solo 11.8% (~2x baseline). El loop es bueno prediciendo qué arregla, ciego prediciendo qué rompe
- Llevo 36 años viendo el mismo patrón. Ensamblador → compilador, SQL crudo → ORM/índices, servidor → orquestación, algoritmo → framework. Quinto ciclo: modelo → harness ownership. Cada vez la capa que se vuelve barata no es el problema; el problema es lo que está sobre lo barato
Imagina que llevas tres años afilando el cuchillo más lujoso de la cocina y descubres, por una medición fría, que ese cuchillo es la única herramienta que no estaba haciendo el trabajo. Las cazuelas, el horno, la mise en place, el lenguaje compartido del equipo: todos esos sí estaban moviendo la aguja. El cuchillo, aislado, hasta restaba. Eso es lo que dice la Tabla 3 del paper de Fudan + Peking sobre el system prompt cuando se separa del resto del harness. Tres años de threads sobre prompt engineering optimizaron el cuchillo. Las palancas estaban en los otros seis utensilios.
Resumen generado con IA
El 29 de abril, Elvis Saravia publicó en X un hilo de 128 mil vistas sobre “Agentic Harness Engineering”, paper de Fudan + Peking + Shanghai Qiji Zhifeng subido al arXiv un día antes. Toda la prensa se quedó con la cifra que sube: pass@1 en Terminal-Bench 2 trepa de 69.7% a 77.0% en diez iteraciones del loop, sin tocar el modelo base. El harness evolucionado vence al harness humano de Codex-CLI (71.9%).
Hay otra cifra. La que ningún hilo citó. Está dos páginas más adelante, en la Tabla 3.
Los siete archivos del harness
El paper formaliza una idea que llevaba dos años flotando como folclore. Un agente de código no es solo el modelo. Es el modelo más siete componentes editables que viven como archivos en un workspace: system prompt, descripción de herramientas, implementación de herramientas, middleware, skills, sub-agentes y memoria de largo plazo.
La contribución del paper no es nombrar los siete. Es tratar cada uno como archivo bajo control de versión, con diff línea por línea, rollback al instante y un manifiesto que predice qué tareas debería arreglar la edición y cuáles está en riesgo de romper. Cada cambio se vuelve un contrato falsificable: la siguiente ronda de evaluación lo confirma o lo revierte.
La Tabla 3 que ningún hilo citó
La Tabla 3 hace algo aburrido pero crucial: aísla el efecto de cada componente. Toma el harness baseline (NexAU₀, 69.7% pass@1) y le agrega un componente evolucionado a la vez:
- + memoria sola: +5.6 puntos
- + herramientas solas: +3.3 puntos
- + middleware solo: +2.2 puntos
- + system prompt solo: -2.3 puntos
El system prompt fue el único componente que retrocedió cuando se aisló del resto. Y la sorpresa adicional: en tareas Hard, la memoria sola supera al harness completo.
Los autores explican el motivo en una sola línea: “the system prompt encodes 79 lines of universal discipline whose executability depends on the other three” (el system prompt codifica 79 líneas de disciplina universal cuya ejecutabilidad depende de los otros tres). Disciplina sin maquinaria es ruido. El agente lee “verifica antes de publicar” pero no tiene un middleware que actúe esa verificación, y el resultado es más turnos gastados re-chequeando lo que ya estaba verificado.
Esa frase del paper se lee como descripción tardía de lo que Pawel Huryn ya había publicado en X el 25 de abril. Huryn bajó su factura mensual de Claude Code de $750 a $100 sin cambiar de modelo, limpiando cuatro palancas: cache hit rate, presupuesto de contexto, ruteo de modelos y formato de input. Las cuatro mapean exactamente sobre middleware, herramientas y descripciones de herramientas. Ninguna sobre prompt. Lo que Huryn hizo intuitivamente, el paper lo formaliza con números.
La transferencia entre modelos: el moat empírico
La parte que cierra la conversación con código-no-es-barato y runtime-commodity está en la sección 4.3. Los autores toman el harness evolucionado en GPT-5.4 high y, sin reentrenar, lo evalúan sobre cinco modelos base distintos. Las cinco corridas dan ganancia positiva entre +2.3 y +10.1 puntos, las más grandes en deepseek-v4-flash y qwen-3.6-plus.
Cruzando familias de modelos. Significa que los siete archivos del harness no codifican trucos específicos de Claude o de GPT; codifican patrones generales de cómo se hace el trabajo en agentes de código. Cuando Anthropic publique Claude Sonnet 4.7 el próximo trimestre y un equipo decida hacer el swap, el harness bien diseñado sobrevive al cambio. El prompt cuidadosamente afinado al modelo anterior, no.
El asterisco: ceguera a regresiones
El paper es honesto sobre lo que el loop no hace bien. Sección 4.4.2: la precisión del agente prediciendo qué tareas su edición va a arreglar es 33.7% (5x baseline aleatorio). La precisión prediciendo qué va a romper es solo 11.8% (~2x baseline). El loop es razonablemente bueno apuntando a qué arregla. Es ciego apuntando a qué rompe.
Rohan Paul publicó el 30 de abril el resumen del paper DELEGATE-52 de Microsoft con el mismo síntoma: incluso modelos frontera corrompen alrededor del 25% del contenido de un documento al delegarles ediciones largas, porque no se auto-atribuyen las regresiones. Por eso Howie Liu corre 30 instancias de Claude Code en paralelo en HyperAgent con revisión cruzada de PRs entre instancias. La revisión cruzada no es estética. Es la única estrategia que atrapa las regresiones que el loop autónomo no nombra.
El patrón que llevo viendo desde 1990
Llevo 36 años en esto. Empecé en 1990, a los 15, en una Commodore 64. He visto cinco veces el mismo ciclo: ensamblador → compilador, SQL crudo → ORM/índices, servidor manual → orquestación declarativa, primitivas de UI → framework integrado al dominio. Cada vez la capa que se volvió commodity no era el problema; el problema era la capa creciendo encima. Los equipos que sobre-invirtieron en la capa barata perdieron el ciclo. Los que aprendieron a ser dueños de la capa de arriba ganaron.
Quinto ciclo. El system prompt es la capa que la industria está afinando. Los siete archivos del harness son la capa creciendo encima. El equipo que invierta esta semana en plantillas de prompt está repitiendo el error de los DBAs que en 2003 seguían memorizando hints de Oracle.
Cinco preguntas antes del siguiente cheque de productividad de IA
Si el comité ejecutivo va a aprobar el siguiente cheque de IA, vale la pena correr este test antes de firmar:
- Inventario. ¿Cuáles de los siete componentes existen como código bajo control de versión, con diff y rollback a nivel archivo? Si algún componente “vive en un canal de Slack”, está bajo folclore, no bajo ingeniería.
- Falsificabilidad. ¿Cada cambio al harness lleva una predicción escrita de qué debería arreglar y qué pone en riesgo, verificada después? Si las ediciones no se miden contra resultados de tarea, lo que tienes es prompt-folclore con git encima.
- Transferencia. ¿Has corrido tu harness en al menos un modelo distinto al que evolucionó? Si no, no sabes si sobrevive el siguiente Sonnet.
- Regresión. Cuando un cambio rompe tareas que antes funcionaban, ¿hay revisión humana o cross-review entre instancias que lo atrape? “El loop se auto-revisa” tiene 11.8% de precisión. Tu equipo no quiere operar a esa altitud.
- Dueño. ¿Quién es dueño con nombre y apellido de los siete archivos? Si la respuesta es “todo el equipo” o “el lead de IA”, la respuesta operativa es nadie.
Si tu equipo no contesta las cinco con claridad, la siguiente conversación útil dura dos horas. Mapeamos uno de tus harnesses, marcamos qué está bajo ingeniería y qué está bajo folclore, y dejamos por escrito qué requiere intervención. Sin cotización atada. El correo es el de siempre: info@iqsource.ai.
Qué hacemos en IQ Source con esta distinción
AI Maestro existe para que la auditoría de los siete archivos pase antes de que el harness se vuelva carga crítica del negocio. La mayoría de los comités ejecutivos descubren al hacer el ejercicio que cuatro o cinco de los siete componentes no existen como artefacto de ingeniería en su empresa.
Socio Tecnológico, la otra línea, aplica para empresas de software cuyo producto vive en zona crítica desde el día uno. Para ese tipo de empresa, el harness deja de ser herramienta de oficina y se vuelve parte del entregable. El cerebro de IQ Source que describí ayer es, leído desde el ángulo del paper, una implementación de uno de los siete archivos: la memoria de largo plazo, la única capa que el coro público de Karpathy estuvo discutiendo todo abril, mientras los otros seis seguían fuera del radar.
Tres años de prompt engineering optimizaron la capa equivocada. La buena noticia es que el paper publicó código abierto y las palancas reales son medibles. La mala es que el comité ejecutivo que no haga el ejercicio este trimestre va a despertar en el cuarto, igual que despertaron tarde los que no entendieron que el ORM era el moat sobre las queries baratas.
Preguntas Frecuentes
El harness, en el paper Agentic Harness Engineering de Fudan + Peking + Shanghai Qiji Zhifeng publicado el 30 de abril de 2026, está formado por los siete componentes editables que rodean al modelo base: system prompt, descripción de herramientas, implementación de herramientas, middleware, skills, configuración de sub-agentes y memoria de largo plazo. El paper prueba en Terminal-Bench 2 que sin cambiar el modelo, evolucionar el harness sube pass@1 de 69.7% a 77.0% en diez iteraciones y vence al harness humano de Codex-CLI.
La Tabla 3 del paper muestra que agregar solo el system prompt evolucionado al harness baseline produce -2.3 puntos en pass@1 mientras que agregar solo memoria sube +5.6, solo herramientas sube +3.3 y solo middleware sube +2.2. Los autores explican que el system prompt codifica 79 líneas de disciplina universal cuya ejecutabilidad depende de los otros tres componentes; insertado solo, esa disciplina queda sin la maquinaria que la hace operable y empeora la base.
El paper re-evalúa el harness AHE evolucionado (sin más entrenamiento) en cinco modelos base distintos: GPT-5.4 medium/high/xhigh, deepseek-v4-flash, qwen-3.6-plus y gemini-3.1-flash-lite. Las cinco corridas dan ganancia positiva entre +2.3 y +10.1 puntos. Eso significa que los siete archivos del harness codifican experiencia general de agente de código, no trucos específicos de un modelo, y por tanto sobreviven al siguiente cambio de generación de modelo. Esa portabilidad es el moat (ventaja competitiva) defensible.
La Sección 4.4.2 del paper mide qué tan bien el agente predice cuáles tareas su edición va a arreglar y cuáles va a romper. Precisión de fix: 33.7% (cinco veces el baseline aleatorio). Precisión de regresión: solo 11.8% (apenas dos veces el baseline). El loop es confiable apuntando a qué arregla, ciego apuntando a qué rompe. Por eso Howie Liu corre 30 instancias de Claude Code en paralelo con revisión cruzada humana de PRs en HyperAgent: la revisión humana atrapa las regresiones que el loop no ve.
Artículos Relacionados
Nueve segundos: el agente confesó, pero la falla no era suya
Cursor + Claude Opus 4.6 borraron la base de datos de PocketOS en 9 segundos. La IA confesó. Pero la falla estaba en tres pecados de arquitectura, no en el modelo.
El código no es barato: el moat se mudó al codebase
Anthropic codifica al 100% con IA, Google armó un strike team. Pocock y Huryn explican por qué: la productividad IA es propiedad del codebase.