Los evals son la nueva documentación de procesos
Ricardo Argüello — 28 de junio de 2026
CEO & Fundador
Resumen general
Aaron Levie lo dijo sin rodeos: todo en IA depende de los evals. Garrett Lord refundó Handshake como empresa de evals después de hablar con cientos de ejecutivos cuyo programa de IA está atascado. La razón del atasco es siempre la misma: la empresa no puede articular qué se ve bien, y sin eso no hay forma de saber si el agente mejora.
- Los programas de IA empresarial se atascan en el piloto no por falta de tecnología sino porque las empresas no tienen definido qué es un output de calidad para sus propios procesos.
- Los evals no son una revisión de pulgar arriba o pulgar abajo. Son un sistema de criterios que captura los matices de juicio, tono y criterio empresarial y los pone en forma evaluable.
- Una empresa que sabe evaluar sus propios flujos de trabajo tiene una ventaja que ningún proveedor de modelo puede darle: el criterio de éxito es suyo y escala con el agente.
- El error más frecuente es confundir evals de benchmark con evals de negocio. Un modelo puede obtener buena puntuación en todos los benchmarks externos y aun así entregar mal en tu proceso específico.
- El Score de Oportunidad de IA que produce AI Maestro es un pre-eval: define qué procesos tienen criterio de éxito suficientemente articulado para que un eval tenga sentido.
Imagina que contratas a un nuevo empleado y lo mandas a atender clientes sin decirle qué define una buena atención para tu empresa. Después de un mes, ¿cómo sabes si está mejorando? No puedes, porque nunca definiste el criterio. Con los agentes de IA pasa exactamente lo mismo. Los evals son el acto de definir por escrito qué es una respuesta buena, qué es una respuesta aceptable y qué es inaceptable. Sin eso, el agente no puede mejorar porque nadie sabe contra qué estándar medirlo.
Resumen generado con IA
Garrett Lord refundó Handshake como empresa de evals después de pasar meses hablando con cientos de ejecutivos. El diagnóstico que encontró en casi todas las conversaciones era el mismo: el programa de IA está atascado en el piloto, el equipo lleva semanas o meses sin poder escalar a producción, y nadie tiene claro por qué.
La razón que encontró, refrendada esta semana por Aaron Levie en Box: las empresas no tienen definido qué es un output de calidad para sus propios procesos. Y sin eso, no hay forma de saber si el agente está mejorando, si está peor que el proceso manual que reemplazó, o si sus errores son sistemáticos.
Aaron Levie lo dijo sin rodeos: “casi todo el progreso en agentes depende de los evals”. Los avances en modelos, en arquitecturas de agentes, en capacidades de herramientas: todo eso mide contra evals. Y las empresas que ganen en IA no serán las que tengan acceso al mejor modelo. Serán las que tengan los mejores evals para sus propios flujos de trabajo.
Por qué los programas de IA se atascan
El mecanismo de atasco que Lord describe es uno que reconozco de haber conversado con equipos que llevan tiempo intentando escalar IA. No es falta de tecnología. No es falta de acceso a buenos modelos. Es que la empresa no puede articular qué se ve bien.
Un piloto de IA que “funciona” sin criterio de evaluación definido es un piloto donde alguien miró el output y dijo “parece bueno”. Eso funciona para la demo. No funciona para escalar. En producción, los casos borde aparecen, los errores se acumulan, y si no tienes un criterio explícito que diga qué es aceptable y qué no, el equipo no puede ni siquiera ponerse de acuerdo en si hay un problema o no.
Lo que Lord llama evals efectivos no es una revisión de pulgar arriba o pulgar abajo ni una encuesta a los usuarios. Es un sistema de criterios que captura los matices de juicio, tono y criterio de negocio que importan en cada proceso, y los convierte en algo evaluable de forma consistente. Verificación determinista para lo objetivo: ¿el output cumple con el alcance?, ¿los datos son correctos?, ¿el formato es el que corresponde? Criterio de LLM como juez para lo subjetivo: ¿el tono es apropiado para el cliente?, ¿la recomendación es relevante para el contexto específico?
El error de confundir benchmarks con evals de negocio
Hay una trampa en la que cae casi todo equipo técnico al evaluar modelos: usar benchmarks externos como sustituto de evals de negocio. MMLU, GPQA, HumanEval, los que sean. Los benchmarks son útiles para comparar capacidades generales de modelos. Son un sustituto pobre para saber si el agente está ejecutando bien en tu proceso de ventas o en tu proceso de atención al cliente.
Un modelo puede puntuar alto en todos los benchmarks externos y entregar mal en tu proceso específico, porque lo que importa en tu proceso es el criterio particular de tu empresa, no la capacidad general del modelo. Como argumenté en la IA como activo compuesto y los evals: el eval que importa no es el del proveedor, es el tuyo.
Y aquí está la parte que Levie señala con más fuerza: los evals como propiedad intelectual. Una empresa que ha construido un sistema de evals sólido para sus procesos tiene algo que ningún proveedor puede darle: el criterio de éxito codificado para su negocio específico. Ese criterio es portable. Funciona con cualquier modelo. Escala con el agente. Y se compone con el tiempo a medida que los estándares se refinan.
El prerequisito que nadie menciona
Hay un paso antes de los evals que casi todo el debate omite: necesitas saber qué quieres evaluar antes de poder evaluarlo.
Suena obvio. En la práctica, la mayoría de las empresas no puede articular sus propios criterios de calidad hasta que alguien les hace las preguntas correctas. ¿Qué hace que una respuesta de atención al cliente sea excelente versus apenas aceptable en tu empresa? ¿Qué señales indican que un lead debería pasar a ventas hoy versus la próxima semana? ¿Qué criterios usa tu equipo de operaciones para decidir escalar un problema?
Esas respuestas viven en las personas más experimentadas del equipo. Raramente están escritas. Y hasta que estén escritas, no pueden convertirse en evals.
Eso es exactamente el trabajo que hacemos en la primera fase de AI Maestro: mapear los procesos reales, articular los criterios de calidad que el equipo usa implícitamente, y convertirlos en el Score de Oportunidad que prioriza dónde construir primero. Ese Score es un pre-eval: define en qué procesos el criterio de éxito está suficientemente articulado para que un eval tenga sentido, y en cuáles el trabajo de articulación todavía falta.
Sin ese diagnóstico previo, los evals que construyes miden el proceso tal como está descrito en papel, que rara vez coincide con el proceso tal como ocurre en la realidad.
Articulemos el criterio de éxito de tu operaciónPreguntas Frecuentes
Los evals de IA son sistemas de criterios que miden si un agente está ejecutando bien contra los estándares específicos de la empresa, no contra benchmarks genéricos. Un modelo puede puntuar alto en MMLU o GPQA y aun así entregar mal en el proceso de ventas o atención al cliente de una empresa específica. Los evals de negocio capturan ese criterio particular.
Porque las empresas no pueden articular qué se ve bien en sus propios procesos. Sin eso, no hay forma de saber si el agente está mejorando, si está en un mínimo local, o si sus errores son sistemáticos. La ausencia de criterio explícito es la causa más frecuente de que los pilotos de IA no escalen a producción.
Combinando verificación determinista para lo objetivo (¿el output cumple con el alcance definido?, ¿los datos son correctos?) con un LLM como juez para lo subjetivo (¿el tono es apropiado?, ¿la respuesta es relevante para el contexto?). El trabajo previo es articular por escrito los criterios de calidad de cada proceso antes de construir el eval.
Una revisión manual requiere intervención humana en cada output y no escala. Un eval codifica el criterio de calidad una vez y lo aplica automáticamente a cada ejecución del agente. La ventaja es que el criterio es consistente, auditable y mejora con el tiempo a medida que se refinan los estándares. El eval es documentación de proceso convertida en infraestructura.
Artículos Relacionados
El modelo es tu base de datos del conocimiento tácito
Satya Nadella dice que debería haber tantos modelos como empresas en el mundo. La razón: el conocimiento tácito que acumula una organización pertenece en un modelo que esa organización controla, no en el del proveedor.
Delegar a la IA no es lo mismo que rendirse a ella
Paul Bakaus, financiado por a16z, distingue entre delegación cognitiva y rendición cognitiva. Uno te hace más eficiente. El otro te saca del control. La diferencia decide si la IA te sirve a ti o al revés.