Shopify y Anthropic: agentes de IA en producción real
Ricardo Argüello — 13 de marzo de 2026
CEO & Fundador
Resumen general
Cinco días después de analizar autoresearch como concepto, dos casos de producción confirman la tesis. El CEO de Shopify corrió autoresearch sobre Liquid y logró 53% más velocidad con 61% menos objetos — 29 experimentos, 10 conservados, 21 archivos cambiados. Anthropic opera todo su marketing de crecimiento — 6 canales, $19B en ingresos anualizados — con una sola persona no técnica. El patrón es el mismo: humano dirige, agente itera, humano revisa.
- Tobi Lutke corrió autoresearch sobre el motor Liquid de Shopify: 53% más velocidad combinada parse+render, 61% menos asignaciones de objetos
- Anthropic opera 6 canales de marketing de crecimiento con una persona — trabajo que normalmente requiere 15 a 20 personas
- El patrón es idéntico en ambos: humano define restricciones, agente ejecuta decenas de experimentos, humano decide qué conservar
- Tobi advirtió que los resultados están 'somewhat overfit' — los números son reales pero la interpretación requiere matiz
- Las condiciones previas importan más que las herramientas: métricas claras, infraestructura lista, y liderazgo técnico dispuesto a experimentar
Imagina que el CEO de una empresa de $120 mil millones le dice a un programa: 'mejora la velocidad de este código que procesa miles de millones de peticiones al día'. El programa prueba 29 ideas diferentes durante la noche, descarta 19 y conserva 10 que logran que todo corra 53% más rápido. Ahora imagina que una empresa de $380 mil millones opera todo su marketing digital — publicidad pagada, email, SEO, redes sociales — con una sola persona que usa agentes de IA para hacer el trabajo de un equipo de 20. Eso pasó esta semana. No como piloto, sino en producción.
Resumen generado con IA
Cinco días atrás analizamos autoresearch como concepto: 630 líneas de código, un agente que itera sin intervención humana y un patrón de dirección + restricciones que aplica más allá de la investigación académica. Esa semana era teoría. Esta semana tenemos números de producción.
El martes, Tobi Lutke — CEO de Shopify, empresa de $120B de capitalización y 5.6 millones de tiendas — corrió autoresearch sobre el motor de renderizado Liquid. Resultado: 53% más velocidad, 61% menos asignaciones de objetos, 21 archivos modificados. Aakash Gupta desglosó los números el mismo día.
Dos días antes, Anthropic reveló que una sola persona no técnica manejó todo su marketing de crecimiento durante 10 meses — 6 canales, $19B en ingresos anualizados, $380B de valuación.
Misma semana, dos escalas, un patrón idéntico.
Liquid: 53% más rápido, 21 archivos, una noche
Liquid es el motor de plantillas detrás de cada tienda en Shopify. Cada vez que un comprador carga una página de producto, Liquid parsea la plantilla y renderiza el HTML. Multiplica eso por 5.6 millones de tiendas y miles de millones de peticiones al día. Un 1% de mejora en rendimiento de Liquid tiene impacto medible en la infraestructura global de Shopify.
Tobi no pidió 1%. Apuntó autoresearch — la herramienta de Karpathy que analizamos la semana pasada — directamente al código de Liquid y lo dejó correr.
Lo que el agente hizo, en términos técnicos: reemplazó coincidencia de bytes por expresiones regulares compiladas, eliminó dispatches de método intermedios con inlining, y sustituyó bucles each/while por iteraciones for optimizadas. No son cambios glamorosos. Son las optimizaciones que un ingeniero senior haría con tres semanas y acceso completo a los profilers. El agente las encontró en una sesión nocturna.
Los números: 29 experimentos ejecutados. 19 descartados. 10 conservados. 21 archivos cambiados. Resultado combinado: 53% más velocidad en parse+render, 61% menos asignaciones de objetos.
No era la primera vez. En una corrida previa sobre un modelo de query-expansion, autoresearch ejecutó 37 experimentos y logró 19% de mejora — con un modelo de 0.8B parámetros superando a uno de 1.6B. La herramienta ya tenía historial antes de tocar Liquid.
Hay que mencionar lo que Tobi mismo dijo: los resultados están “somewhat overfit”. Lo tradujo como advertencia honesta — los benchmarks miden un escenario específico, y el rendimiento en producción real puede diferir. Es la clase de matiz que la mayoría de los tweets sobre IA omiten. Que el CEO de una empresa de $120B lo mencione proactivamente dice algo sobre la madurez de cómo está evaluando la herramienta.
Y hay un detalle que merece atención: es el CEO de una empresa pública de esa escala corriendo personalmente una herramienta de investigación autónoma sobre código de producción en una tarde de miércoles. No delegó a un equipo de investigación. No lo puso en un roadmap trimestral. Simplemente lo ejecutó.
Un equipo de marketing de una persona
Al otro lado del espectro — marketing en vez de infraestructura — Anthropic reveló algo igual de llamativo.
Contexto: Anthropic, la empresa detrás de Claude, pasó de $9B a $19B en ingresos anualizados en tres meses. Su valuación alcanzó $380B. Tiene más de 3,000 empleados. No es una startup en etapa temprana.
Austin Lau es una persona. No técnica. Durante 10 meses, manejó los 6 canales de marketing de crecimiento de Anthropic: search pagado, social pagado, app stores, email y SEO. Para referencia, el benchmark de la industria para operar esos 6 canales es un equipo de 15 a 20 personas con $3M a $5M en payroll anual.
Su flujo de trabajo: Claude Code exporta datos de campañas y marca anomalías automáticamente. Dos agentes especializados generan 100 variaciones de copy y creativos en 0.5 segundos. Un plugin de Figma intercambia templates de anuncios sin intervención manual. Un servidor MCP consulta directamente la API de Meta Ads para obtener métricas en tiempo real. Un sistema de memoria alimenta los aprendizajes de cada ciclo al siguiente.
El resultado: una persona operando la maquinaria de marketing de una empresa de $380B de valuación. No como experimento piloto. Durante 10 meses en producción.
Hay que ser claros con el caveat: esto es Anthropic hablando sobre su propio producto. El caso fue publicado como parte de su estrategia de comunicación. Los números no tienen auditoría externa. Es como si Toyota publicara un estudio sobre la confiabilidad de sus propios vehículos — probablemente cierto, pero la fuente merece contexto. Aun así, la escala y la duración hacen difícil descartarlo completamente.
El mismo patrón, dos escalas
Si pones los dos casos lado a lado, la estructura es la misma:
| Shopify | Anthropic | |
|---|---|---|
| Dominio | Código de infraestructura | Operaciones de marketing |
| Métrica | Tiempo de parse+render | Rendimiento de campañas |
| Experimentos | 29 ejecutados, 10 conservados | Ciclo continuo |
| Rol humano | Evaluar y hacer merge | Dirigir y escalar |
| Caveat | ”Somewhat overfit” | Auto-reportado |
En ambos casos, el humano no desaparece. Cambia de posición. Pasa de la ejecución a la dirección. Tobi no escribió las optimizaciones de Liquid — las evaluó y decidió cuáles conservar. Austin no diseñó cada anuncio ni ajustó cada bid — definió los canales, las restricciones de presupuesto y los criterios de éxito.
Esto es exactamente lo que describimos en el análisis del operador de agentes: tanto Tobi como Austin están actuando como directores de orquesta de agentes autónomos. El valor ya no está en la ejecución repetitiva — está en saber qué pedir, cómo restringirlo y cuándo intervenir.
Y el loop de autoresearch que analizamos en 630 líneas ya no es un concepto académico. Está operando a escala de $120B y $380B.
Las condiciones que nadie menciona
Lo fácil es leer estos dos casos y concluir: “necesito implementar agentes autónomos”. Lo difícil — y lo que separa la adopción con criterio del entusiasmo sin sustancia — es preguntarse por qué funcionaron.
Ambos casos comparten tres precondiciones:
Métricas limpias y cuantificables. Liquid tiene benchmarks de rendimiento: tiempo de parse, tiempo de render, asignaciones de memoria. El marketing de Anthropic tiene costo por adquisición, CTR, conversión por canal. En ambos casos, el agente sabe exactamente contra qué comparar cada iteración. Sin esa métrica, el agente itera a ciegas.
Infraestructura lista. Shopify tiene un codebase maduro con suites de pruebas y profilers. Anthropic tiene APIs de plataformas publicitarias y sistemas de datos conectados. Los agentes no crearon esa infraestructura — la usaron. Si tu proceso vive en hojas de cálculo compartidas y emails reenviados, el agente no tiene sobre qué operar.
Liderazgo dispuesto a experimentar. Tobi corrió autoresearch personalmente. Austin tuvo 10 meses de autonomía operativa. En ambos casos, la autorización para experimentar vino desde arriba, no desde un comité que necesitó 6 meses para aprobar un piloto.
En nuestra experiencia en IQ Source, el cuello de botella nunca es acceso a herramientas. Autoresearch es open source. Claude Code está disponible por suscripción. Las APIs de Meta y Google son públicas. Lo que distingue a los equipos que obtienen resultados es la preparación: procesos mapeados con métricas definidas, y restricciones bien documentadas antes de soltar al agente.
Esto conecta directamente con lo que analizamos sobre ingeniería de contexto: la calidad del output de un agente es proporcional a la calidad del contexto que recibe. Shopify y Anthropic no usaron herramientas mágicas — le dieron a las herramientas existentes contexto de alta calidad.
Para empresas B2B en Latinoamérica, la pregunta no es “¿puedo replicar lo que hizo Shopify?” La respuesta es que las herramientas ya están disponibles. La pregunta correcta es: “¿tengo las precondiciones?”
Tu primer experimento no tiene que ser Liquid
Liquid procesa miles de millones de peticiones. El marketing de Anthropic opera con $19B en revenue. Los números son llamativos, pero no necesitas operar a esa escala para aplicar el patrón.
Lo que necesitas es un proceso con una métrica clara. Un solo proceso. Una sola métrica.
Ejemplos concretos para empresas medianas: precisión de órdenes de compra (¿cuántas pasan sin corrección manual?), tiempo de procesamiento de documentos (de recepción a clasificación), velocidad de respuesta a cotizaciones (de solicitud a propuesta enviada), merma de inventario (diferencia entre sistema y conteo físico).
Todos tienen un número que baja o sube. Todos dependen hoy de manos humanas para probar ajustes, medir resultados y decidir qué conservar. Cualquiera de ellos puede tener un agente iterando durante la noche mientras el equipo descansa.
No estamos hablando de reemplazar equipos. Estamos hablando de que el equipo llegue a la mañana siguiente con 20 variaciones probadas en vez de haber probado 2 a mano la semana pasada.
Envíanos el nombre de un proceso y la métrica con la que lo mides hoy. Te devolvemos un diagnóstico rápido: qué tienes listo, qué falta y cuál sería el primer experimento viable. Sin reunión — solo un email de ida y vuelta.
Enviar proceso y métrica →Preguntas Frecuentes
Tobi Lutke, CEO de Shopify, usó la herramienta autoresearch de Karpathy sobre el motor Liquid, el código que renderiza cada tienda. El agente ejecutó 29 experimentos autónomos, conservó 10 y logró 53% más velocidad combinada de parseo y renderizado con 61% menos asignaciones de objetos. La herramienta está disponible como open source en GitHub.
Austin Lau, una persona no técnica, manejó los 6 canales de marketing de crecimiento de Anthropic durante 10 meses: publicidad pagada en search y social, app stores, email y SEO. Usa Claude Code para exportar datos de campañas, dos agentes especializados para generar variaciones de anuncios, un plugin de Figma y un servidor MCP conectado a la API de Meta.
Ambos siguen el mismo patrón: un humano define la dirección y las restricciones, un agente de IA ejecuta decenas de experimentos a velocidad de máquina, y el humano revisa los resultados para decidir qué conservar. En Shopify, Tobi evaluó 29 experimentos y conservó 10. En Anthropic, cada resultado alimenta un sistema de memoria para el siguiente ciclo. El humano dirige, no ejecuta.
Tres condiciones previas: una métrica cuantificable y limpia (tiempo de respuesta, tasa de error, costo por adquisición), datos históricos suficientes para que el agente tenga contra qué comparar, y restricciones bien definidas que el agente no pueda cruzar. Las herramientas son accesibles para todos — lo que distingue a los casos exitosos es la calidad de la preparación.
Artículos Relacionados
Ataque a LiteLLM: tu cadena de confianza de IA, rota
LiteLLM, el proxy de API keys de IA con 97 millones de descargas mensuales, fue envenenado vía PyPI. Tu escáner de seguridad fue el vector de entrada.
Google Stitch y AI Studio: diseño y código sin ingenieros
Google lanzó un pipeline completo de diseño a producción con Stitch y AI Studio. Qué sirve para prototipos B2B y dónde necesitas ingeniería real.