Anthropic se midió a sí misma. ¿Tú puedes probarlo?
Ricardo Argüello — 8 de junio de 2026
CEO & Fundador
Resumen general
Anthropic publicó datos sobre sí misma: Claude escribe la mayoría del código que llega a producción en la empresa, sus ingenieros envían cerca de 8 veces más código por trimestre que entre 2021 y 2025, y lo llaman un camino hacia la automejora recursiva. Quita la ciencia ficción y queda lo importante: una empresa puso sobre la mesa un número de salida que se puede falsear. Mientras tanto, casi toda la industria sigue presumiendo lo que entra: un cliente que quema 100 mil millones de tokens al mes, licencias de Copilot, rondas de 30 millones con una licencia de Cursor como única estrategia de IA. La nueva línea divisoria no es quién usa IA. Es quién puede probar que produjo algo.
- Anthropic reporta que Claude ya escribe más del 80% del código que se fusiona en la empresa y que sus ingenieros envían cerca de 8 veces más código por trimestre que en el periodo 2021-2025.
- Lo radical no es la automejora recursiva del titular. Es que una empresa publicó un número de salida sobre sí misma, falseable, en vez de presumir cuánto consume.
- El resto de la industria presume entradas: 100 mil millones de tokens al mes sin decir qué produjeron, asientos de Copilot contados como adopción, rondas levantadas con una licencia de Cursor en la portada.
- Medir la salida es más difícil que contar licencias: necesitas una línea base y una definición de 'llegó al cliente'. Por eso casi nadie responde la pregunta, y por eso el que la responde tiene una ventaja real.
- AI Maestro de IQ Source construye esa línea base antes de acelerar: mapea los procesos reales, les pone un Score de Oportunidad de IA y aplica una compuerta Go/No-Go sobre resultados, no sobre asientos.
Imagina dos fábricas con la misma factura de electricidad gigante a fin de mes. La primera presume el número de la factura en una junta, como si gastar mucho fuera el logro. La segunda cuenta cuántas unidades salieron de la línea con esa misma electricidad. Solo una de las dos sabe si está ganando o perdiendo plata. Anthropic acaba de hacer pública su cuenta de unidades por electricidad. Casi todos los demás siguen presumiendo el tamaño de la factura.
Resumen generado con IA
Esta semana Anthropic hizo algo raro para una empresa de IA: publicó números sobre sí misma.
Claude ya escribe la mayoría del código que se fusiona a producción dentro de la empresa, por encima del 80% según la cobertura de estos días. Y sus ingenieros, en promedio, envían cerca de 8 veces más código por trimestre que en el periodo 2021-2025. Anthropic lo enmarca como un posible camino hacia la automejora recursiva, IA que acelera el desarrollo de la próxima IA, y dice que está pasando más rápido de lo que esperaban.
El titular se fue por la ciencia ficción, como era de esperar. Algunos celebraron el apocalipsis, otros respondieron que los empleados de Anthropic deben estar deprimidos. Y la propia empresa metió un freno en su texto: lograr la automejora recursiva, escribió, no implica por sí solo un cambio inmediato en cómo se organiza la producción industrial o la sociedad.
Quita todo eso y queda lo que de verdad importa para tu empresa. Lo radical no es el robot que se mejora solo. Es que una compañía puso sobre la mesa un número de salida sobre sí misma, uno que se puede falsear, en vez de presumir cuánto consume. Esa es la tesis de este post: la nueva línea divisoria no es quién usa IA. Es quién puede probar que produjo algo.
El número, no el robot, es la noticia
Olvidémonos un segundo de si la IA se va a mejorar sola. Eso es un debate de sobremesa y nadie en tu junta directiva va a actuar sobre él el lunes.
Lo accionable es otra cosa. Anthropic dijo “8 veces más código por trimestre” y “más del 80% del código fusionado”. Esos son números de salida. Se pueden discutir, auditar, incluso desmentir. Alguien puede preguntar “¿código fusionado o código que llegó al cliente?”, “¿8 veces medido cómo?”, y la pregunta tiene sentido porque hay un número contra el cual discutir.
Esa es la parte que casi nadie copió de Anthropic, y es la única que vale la pena copiar. No la automejora recursiva. La disposición a decir un número de producción en voz alta, sabiendo que alguien lo va a revisar.
Porque la mayoría de las empresas que “adoptaron IA” este año no tienen un número así. Tienen una sensación. Tienen una factura. Tienen un tablero lleno de tokens. Lo que no tienen es una sola cifra que pruebe que la IA hizo llegar algo a un cliente más rápido o más barato que el año pasado.
Todos los demás presumen lo que entra
Mark Ajzenstadt, que dirige una empresa de servicios que mete ingenieros de IA dentro de equipos de producto, puso el dedo en la llaga esta misma semana. Vale la pena leer su lista, porque es el reverso exacto de lo que hizo Anthropic.
El CEO de OpenAI presumiendo en un escenario que un cliente quema 100 mil millones de tokens al mes, sin mencionar qué produjo con ellos. Consultoras facturando millones por estrategias de IA escritas por gente que nunca envió un agente a producción. Directores de tecnología reportándole a su junta la “adopción de IA” contando asientos de Copilot, sin que nadie mida qué llegó a producción. Startups levantando rondas de 30 millones con “IA nativa” en la portada y una licencia de Cursor como estrategia completa.
Todo en esa lista es una métrica de entrada. Tokens consumidos, licencias compradas, dinero gastado, rondas levantadas. Ninguna dice una palabra sobre lo que salió del otro lado.
La frase con la que Mark cierra su hilo es la que me dejó pensando: “yo sé nuestro costo por PR fusionado”. Una sola línea, y deja a toda la lista anterior en evidencia. Él no presume cuántos tokens quema. Sabe cuántos PR cierra por ese gasto. Es la diferencia entre saber lo que pagas y saber lo que produces, y casi nadie del otro lado de la lista la sabe.
Medir la salida es difícil. Por eso casi nadie lo hace.
Hay una razón honesta por la que tanta gente se queda en las métricas de entrada: son fáciles. Contar asientos de Copilot lo hace una hoja de cálculo. Sumar la factura de tokens lo hace el proveedor por ti. Ninguna de las dos requiere que definas qué significa “terminado”.
Medir la salida sí. Para decir “producimos 8 veces más” necesitas dos cosas que la mayoría no tiene: una definición clara de qué cuenta como “llegó al cliente”, y una línea base honesta del año pasado contra la cual comparar. Sin esas dos, no hay número, hay anécdota.
Y aquí está la trampa que vuelve todo más resbaloso: que las pruebas pasen no significa que algo valía la pena. Ya escribí sobre eso cuando salió Opus 4.8, sobre cómo mil agentes pueden terminar la tarea equivocada con la batería de pruebas en verde. Un tablero verde es una métrica de entrada disfrazada de resultado. Te dice que el sistema corrió, no que produjo algo que alguien necesitaba.
Por eso ni el pánico ni la euforia ayudan. Las dos son formas de no responder la pregunta aburrida. La pregunta aburrida es: ¿puedes decir, hoy, un solo número honesto de lo que tu IA hizo llegar a un cliente? Si la respuesta es “déjame revisar el tablero de tokens”, la respuesta es no.
Lo que hacemos en IQ Source con esto
Cuando una empresa nos pide acelerar con IA, lo primero que pedimos no es acceso a sus herramientas. Es su línea base. ¿Cuánto producías antes de la IA, medido en algo que de verdad le importe al negocio? Si no existe, ese es el primer trabajo, antes de tocar el acelerador. Porque acelerar sin línea base te deja exactamente donde está media industria: gastando más y sin poder probar que algo cambió.
AI Maestro es el discovery donde se construye esa base. Dos meses donde mapeamos los procesos reales de tu operación, no los del organigrama, les ponemos un Score de Oportunidad de IA y al final hay una compuerta Go/No-Go proceso por proceso. Y la compuerta se decide sobre resultados que llegan al cliente, no sobre asientos comprados. La métrica concreta que instalamos para que esto no sea teoría ya la conté aparte: el costo por funcionalidad enviada, no los tokens por mes. Esa es la cifra que separa al equipo que escala con margen del que quema con dignidad.
Anthropic se midió a sí misma esta semana y publicó el número. No tienes que creer en la automejora recursiva para llevarte la lección. La lección es más simple y más incómoda: la próxima vez que alguien en tu empresa celebre que la IA ya escribe la mitad del código, o que el equipo de marketing usa cinco herramientas nuevas, haz una sola pregunta antes de aplaudir. Enséñame el número de salida. Si solo aparece la factura, no probaste nada. Solo gastaste con estilo.
Construye la línea base que prueba lo que la IA producePreguntas Frecuentes
Anthropic reportó que Claude ya escribe la mayoría del código que se fusiona a producción en la empresa, por encima del 80% según la cobertura de esta semana, y que sus ingenieros envían cerca de 8 veces más código por trimestre que entre 2021 y 2025. Lo enmarcó como un posible camino hacia la automejora recursiva de la IA.
Porque tokens, asientos de Copilot y tamaño de la factura miden lo que entra al sistema, no lo que sale. Dos equipos con el mismo gasto pueden tener resultados opuestos. Una métrica de entrada se ve impresionante en una junta y no dice nada sobre si algo llegó a un cliente. Es adopción presumida, no producción probada.
La que divide la salida real entre el gasto: costo por funcionalidad enviada o por PR fusionado, no tokens por mes. Esa métrica separa al equipo que escala IA con margen del que la quema con dignidad. Necesita una definición clara de 'llegó al cliente' y una línea base contra la cual comparar el siguiente trimestre.
AI Maestro de IQ Source construye la línea base antes de acelerar: durante dos meses mapea los procesos reales de la operación, les asigna un Score de Oportunidad de IA y aplica una compuerta Go/No-Go que se decide sobre resultados que llegan al cliente, no sobre asientos comprados ni tokens quemados.
Artículos Relacionados
Un tope de $1,500 no cura tu factura de IA descontrolada
Uber limitó el gasto de IA a $1,500 por persona y una empresa quemó $500 millones en un mes. El tope trata el síntoma. La causa es soltar agentes sin alcance.
El pico de confianza con la IA y la bajada sin dueño
Construir IA es más barato que nunca, así que la apuesta es construir. Pero el 95% de los pilotos no mueve el P&L, y nadie cuida la bajada de la curva.