Saltar al contenido principal

Lo que no puede entrenarse: el benchmark que nadie escribe

Sarah Guo: todo lo que pongas en una tabla pública de referencia se puede entrenar. La ventaja durable en IA no está en el modelo. Está en el benchmark que solo tú puedes escribir.

Lo que no puede entrenarse: el benchmark que nadie escribe

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

IA y Automatización 8 min de lectura

La semana pasada, Ramez Naam citó una frase de Sarah Guo que no pude dejar de lado: “cualquier cosa que pongas en una tabla pública de referencia, eventualmente se puede entrenar.”

Es la manera más directa que escuché de describir el problema central de la estrategia de IA empresarial en 2026.

Los modelos mejoran sin parar. MMLU cayó. HumanEval cayó. Los grandes conjuntos de evaluación de razonamiento que hace dos años parecían intocables ya tienen modelos que los resuelven sin dificultad. El modelo del próximo trimestre va a superar al actual en casi todo lo que se pueda medir públicamente, y el modelo del siguiente trimestre va a superar a ese.

La única ventaja que no cede con cada lanzamiento es la que no está en ninguna tabla pública. La definición de “bueno” que vive dentro de tu empresa, construida a partir del trabajo real de tu operación, y que todavía nadie más ha podido escribir.

Esa definición es el activo que no se puede entrenar. Y la mayoría de las empresas medianas todavía no la tiene escrita.

Las empresas que ya escribieron su benchmark

Harvey construyó el benchmark para IA legal. No como ejercicio académico ni como movida de marketing. Lo construyeron porque llevan años dentro del trabajo real de fusiones y adquisiciones, y en ese tiempo aprendieron qué significa “correcto” en ese contexto específico: qué cláusulas son críticas y cuáles son negociables según el tipo de transacción, qué clase de error en un documento de due diligence es recuperable y cuál puede poner en riesgo el cierre, qué estándar de revisión aplica a cada tipo de contrato.

Eso no es conocimiento que se aprende leyendo casos de estudio. Se construye desde adentro del trabajo.

OpenEvidence hizo lo mismo en el dominio clínico. Años dentro del razonamiento médico real, construyendo el criterio de evaluación que ningún modelo generalista puede tener porque no estuvo adentro de esas decisiones. El modelo que puntúa bien en ese benchmark no lo hace porque fue entrenado con más datos genéricos. Lo hace porque los criterios del benchmark fueron diseñados por personas que entienden qué significa una respuesta aceptable en ese contexto clínico específico.

Esta semana Aaron Levie publicó la evaluación de IA de Box para due diligence. No es un ejercicio de relaciones públicas. Es la demostración de que Box sabe qué significa “bueno” en el análisis de documentos de fusiones y adquisiciones, y que puede evaluar cualquier modelo contra ese criterio. Un criterio que costó años de trabajo dentro de ese dominio construir, y que ningún competidor puede replicar comprando más cómputo o lanzando una nueva versión del modelo base.

En cada uno de estos casos, la ventaja competitiva no está en el modelo que se usa. Está en saber qué medir y en haber dedicado el tiempo necesario para construir ese criterio desde adentro del trabajo real.

Por qué ese benchmark no se puede replicar con entrenamiento

El argumento de Guo es preciso: todo benchmark que se publica se convierte en objetivo de entrenamiento. Los laboratorios buscan activamente lo que los modelos no saben hacer bien y lo incluyen en el conjunto de datos del siguiente ciclo. Si tu ventaja competitiva con IA depende de un benchmark público, ese benchmark tiene fecha de vencimiento.

La trampa en la que caen muchas empresas medianas es creer que evaluar con benchmarks genéricos les dice algo útil sobre si la IA va a funcionar para su operación. No lo hace.

La empresa de logística que evalúa modelos con métricas de velocidad de respuesta y coherencia en la redacción no está midiendo si el modelo puede razonar sobre sus restricciones específicas de distribución: los acuerdos de nivel de servicio que tienen con clientes en determinadas rutas, las reglas de negocio que determinan cuándo se puede sustituir un transportista, las excepciones que el equipo de operaciones aplica cuando hay condiciones climáticas o problemas fronterizos. Eso no está en ningún benchmark público.

La empresa de servicios financieros que usa un conjunto estándar de evaluación para seleccionar un asistente legal no está midiendo si el modelo entiende el tratamiento de excepciones que su equipo aplica por razones estratégicas. Qué cliente recibe un contrato distinto. Qué cláusula es negociable para ciertos sectores y no para otros. Qué nivel de riesgo acepta la empresa dependiendo del tamaño de la transacción.

El benchmark que importa para esa empresa no está publicado en ningún paper ni en ningún sitio de comparación de modelos. Lo tiene que construir el equipo que conoce la operación, a partir del trabajo que ya hizo.

Ya escribí sobre la evaluación de IA como activo que se compone con el tiempo: cada ciclo de adopción es más informado para la empresa que tiene criterios propios para comparar. La empresa que no los tiene reinventa la evaluación cada vez que aparece un modelo nuevo.

Lo que todavía no está escrito en la mayoría de las empresas medianas

El conocimiento existe. En casi todas las empresas medianas con las que trabajamos, hay personas que saben exactamente qué significa “bueno” para los procesos clave de la operación. El gerente de ventas con quince años en la empresa sabe cuándo una objeción de precio es real y cuándo es táctica de negociación. La directora de operaciones sabe cuándo aplicar la excepción al proceso estándar y cuándo mantenerlo. El equipo de atención al cliente sabe qué señales indican que un cliente va a escalar un problema y qué respuesta lo desactiva.

Ese conocimiento existe. El documento no.

Nadie se sentó a escribir qué significa “correcto” en el proceso de cierre de ventas de esa empresa específica, con sus clientes reales, sus rangos de precio reales y sus excepciones reales. Nadie documentó el criterio por el cual el equipo de operaciones decide cuándo una situación requiere escalar y cuándo se resuelve con el proceso estándar.

Cuando llega el momento de evaluar si un sistema de IA puede ayudar en esos procesos, ese conocimiento no existe en ningún formato que la evaluación pueda usar. La empresa termina usando los benchmarks del proveedor, que miden capacidades genéricas que no reflejan el trabajo real. O terminan con una evaluación que consiste en que el equipo prueba el sistema unos días y da su impresión.

“Se sintió bien” no es una evaluación. Es una apuesta.

El problema se agrava con el tiempo. Cada trimestre que pasa sin construir criterios propios es un trimestre de calibración perdida. La empresa que lleva tres años evaluando sus procesos con criterios propios tiene una capacidad de adopción de IA que ningún presupuesto puede comprar de la noche a la mañana.

Lo que construimos en AI Maestro para esto

El primer entregable de AI Maestro es el Mapa de Realidad de Procesos. Es exactamente ese ejercicio: documentar qué significa “bueno” para cada proceso de la operación de la empresa.

No el benchmark genérico que cualquier consultor redactaría en dos horas con las mejores prácticas de la industria. El mapa específico de cómo funciona esa operación de verdad: qué hace cada proceso, qué herramientas usa, quién toma qué decisiones y con base en qué información, dónde están las excepciones legítimas y dónde están las señales de que algo está fallando, cuál es el criterio de éxito real para ese proceso en ese contexto con esos clientes.

Con ese documento, la adopción de IA deja de ser una apuesta y se convierte en una evaluación con criterios propios. ¿Puede este modelo razonar correctamente sobre las restricciones específicas de esta operación? ¿Maneja las excepciones de la manera que el equipo las manejaría? ¿Su respuesta para este tipo de cliente sería aceptable para el estándar que la empresa aplica?

Esas preguntas solo tienen respuesta útil si la empresa tiene un benchmark escrito. Sin él, cualquier respuesta del modelo parece razonable porque no hay criterio de comparación.

La capa escrita del benchmark es el punto de partida. Ayer escribí sobre la capa verbal que la complementa: las conversaciones grabadas en las que el equipo tomó esas mismas decisiones a lo largo de dos o tres años. El Mapa de Realidad de Procesos documenta los criterios. Las grabaciones muestran cómo se aplicaron en situaciones reales.

La conversación sobre IA en la mayoría de las empresas medianas sigue siendo sobre qué modelo usar. La conversación que más importa es cuándo se van a sentar a escribir qué significa “bueno” para su operación. Esa es la ventaja que no expira con el próximo lanzamiento.

Construye el benchmark de tu operación con AI Maestro

Preguntas Frecuentes

benchmark IA ventaja competitiva evaluación IA modelos commodity AI Maestro verticalización IA moat

Artículos Relacionados

La reunión que no grabaste es el corpus que no tendrás
IA y Automatización
· 6 min de lectura

La reunión que no grabaste es el corpus que no tendrás

Las empresas que graban sus reuniones están construyendo un corpus de IA que sus competidores no tendrán. David Haber de a16z publicó el porqué.

grabación de reuniones corpus de IA contexto empresarial
Starbucks retira IA de inventario tras 9 meses en 11,000 tiendas
IA y Automatización
· 8 min de lectura

Starbucks retira IA de inventario tras 9 meses en 11,000 tiendas

NomadGo prometió 99% de precisión y un conteo 8x más rápido. Starbucks lo desplegó en 11,000 tiendas sin medir contra la barra real. Regresó al manual el lunes.

Starbucks NomadGo AI Maestro