Saltar al contenido principal

Anthropic se midió a sí misma. ¿Tú puedes probarlo?

Anthropic publicó que Claude escribe más del 80% de su código y que sus ingenieros envían 8 veces más por trimestre. La pregunta ya no es quién usa IA.

Anthropic se midió a sí misma. ¿Tú puedes probarlo?

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

Estrategia Empresarial 6 min de lectura

Esta semana Anthropic hizo algo raro para una empresa de IA: publicó números sobre sí misma.

Claude ya escribe la mayoría del código que se fusiona a producción dentro de la empresa, por encima del 80% según la cobertura de estos días. Y sus ingenieros, en promedio, envían cerca de 8 veces más código por trimestre que en el periodo 2021-2025. Anthropic lo enmarca como un posible camino hacia la automejora recursiva, IA que acelera el desarrollo de la próxima IA, y dice que está pasando más rápido de lo que esperaban.

El titular se fue por la ciencia ficción, como era de esperar. Algunos celebraron el apocalipsis, otros respondieron que los empleados de Anthropic deben estar deprimidos. Y la propia empresa metió un freno en su texto: lograr la automejora recursiva, escribió, no implica por sí solo un cambio inmediato en cómo se organiza la producción industrial o la sociedad.

Quita todo eso y queda lo que de verdad importa para tu empresa. Lo radical no es el robot que se mejora solo. Es que una compañía puso sobre la mesa un número de salida sobre sí misma, uno que se puede falsear, en vez de presumir cuánto consume. Esa es la tesis de este post: la nueva línea divisoria no es quién usa IA. Es quién puede probar que produjo algo.

El número, no el robot, es la noticia

Olvidémonos un segundo de si la IA se va a mejorar sola. Eso es un debate de sobremesa y nadie en tu junta directiva va a actuar sobre él el lunes.

Lo accionable es otra cosa. Anthropic dijo “8 veces más código por trimestre” y “más del 80% del código fusionado”. Esos son números de salida. Se pueden discutir, auditar, incluso desmentir. Alguien puede preguntar “¿código fusionado o código que llegó al cliente?”, “¿8 veces medido cómo?”, y la pregunta tiene sentido porque hay un número contra el cual discutir.

Esa es la parte que casi nadie copió de Anthropic, y es la única que vale la pena copiar. No la automejora recursiva. La disposición a decir un número de producción en voz alta, sabiendo que alguien lo va a revisar.

Porque la mayoría de las empresas que “adoptaron IA” este año no tienen un número así. Tienen una sensación. Tienen una factura. Tienen un tablero lleno de tokens. Lo que no tienen es una sola cifra que pruebe que la IA hizo llegar algo a un cliente más rápido o más barato que el año pasado.

Todos los demás presumen lo que entra

Mark Ajzenstadt, que dirige una empresa de servicios que mete ingenieros de IA dentro de equipos de producto, puso el dedo en la llaga esta misma semana. Vale la pena leer su lista, porque es el reverso exacto de lo que hizo Anthropic.

El CEO de OpenAI presumiendo en un escenario que un cliente quema 100 mil millones de tokens al mes, sin mencionar qué produjo con ellos. Consultoras facturando millones por estrategias de IA escritas por gente que nunca envió un agente a producción. Directores de tecnología reportándole a su junta la “adopción de IA” contando asientos de Copilot, sin que nadie mida qué llegó a producción. Startups levantando rondas de 30 millones con “IA nativa” en la portada y una licencia de Cursor como estrategia completa.

Todo en esa lista es una métrica de entrada. Tokens consumidos, licencias compradas, dinero gastado, rondas levantadas. Ninguna dice una palabra sobre lo que salió del otro lado.

La frase con la que Mark cierra su hilo es la que me dejó pensando: “yo sé nuestro costo por PR fusionado”. Una sola línea, y deja a toda la lista anterior en evidencia. Él no presume cuántos tokens quema. Sabe cuántos PR cierra por ese gasto. Es la diferencia entre saber lo que pagas y saber lo que produces, y casi nadie del otro lado de la lista la sabe.

Medir la salida es difícil. Por eso casi nadie lo hace.

Hay una razón honesta por la que tanta gente se queda en las métricas de entrada: son fáciles. Contar asientos de Copilot lo hace una hoja de cálculo. Sumar la factura de tokens lo hace el proveedor por ti. Ninguna de las dos requiere que definas qué significa “terminado”.

Medir la salida sí. Para decir “producimos 8 veces más” necesitas dos cosas que la mayoría no tiene: una definición clara de qué cuenta como “llegó al cliente”, y una línea base honesta del año pasado contra la cual comparar. Sin esas dos, no hay número, hay anécdota.

Y aquí está la trampa que vuelve todo más resbaloso: que las pruebas pasen no significa que algo valía la pena. Ya escribí sobre eso cuando salió Opus 4.8, sobre cómo mil agentes pueden terminar la tarea equivocada con la batería de pruebas en verde. Un tablero verde es una métrica de entrada disfrazada de resultado. Te dice que el sistema corrió, no que produjo algo que alguien necesitaba.

Por eso ni el pánico ni la euforia ayudan. Las dos son formas de no responder la pregunta aburrida. La pregunta aburrida es: ¿puedes decir, hoy, un solo número honesto de lo que tu IA hizo llegar a un cliente? Si la respuesta es “déjame revisar el tablero de tokens”, la respuesta es no.

Lo que hacemos en IQ Source con esto

Cuando una empresa nos pide acelerar con IA, lo primero que pedimos no es acceso a sus herramientas. Es su línea base. ¿Cuánto producías antes de la IA, medido en algo que de verdad le importe al negocio? Si no existe, ese es el primer trabajo, antes de tocar el acelerador. Porque acelerar sin línea base te deja exactamente donde está media industria: gastando más y sin poder probar que algo cambió.

AI Maestro es el discovery donde se construye esa base. Dos meses donde mapeamos los procesos reales de tu operación, no los del organigrama, les ponemos un Score de Oportunidad de IA y al final hay una compuerta Go/No-Go proceso por proceso. Y la compuerta se decide sobre resultados que llegan al cliente, no sobre asientos comprados. La métrica concreta que instalamos para que esto no sea teoría ya la conté aparte: el costo por funcionalidad enviada, no los tokens por mes. Esa es la cifra que separa al equipo que escala con margen del que quema con dignidad.

Anthropic se midió a sí misma esta semana y publicó el número. No tienes que creer en la automejora recursiva para llevarte la lección. La lección es más simple y más incómoda: la próxima vez que alguien en tu empresa celebre que la IA ya escribe la mitad del código, o que el equipo de marketing usa cinco herramientas nuevas, haz una sola pregunta antes de aplaudir. Enséñame el número de salida. Si solo aparece la factura, no probaste nada. Solo gastaste con estilo.

Construye la línea base que prueba lo que la IA produce

Preguntas Frecuentes

Anthropic Claude métricas de IA productividad de ingeniería gobernanza de IA AI Maestro ROI de IA

Artículos Relacionados

Un tope de $1,500 no cura tu factura de IA descontrolada
Estrategia Empresarial
· 6 min de lectura

Un tope de $1,500 no cura tu factura de IA descontrolada

Uber limitó el gasto de IA a $1,500 por persona y una empresa quemó $500 millones en un mes. El tope trata el síntoma. La causa es soltar agentes sin alcance.

tope de gasto IA costos de IA tokens
El pico de confianza con la IA y la bajada sin dueño
Estrategia Empresarial
· 7 min de lectura

El pico de confianza con la IA y la bajada sin dueño

Construir IA es más barato que nunca, así que la apuesta es construir. Pero el 95% de los pilotos no mueve el P&L, y nadie cuida la bajada de la curva.

Dunning-Kruger adopción de IA transformación con IA