¿Qué resultados obtuvo Shopify al usar autoresearch en su código de producción?

Tobi Lutke, CEO de Shopify, usó la herramienta autoresearch de Karpathy sobre el motor Liquid, el código que renderiza cada tienda. El agente ejecutó 29 experimentos autónomos, conservó 10 y logró 53% más velocidad combinada de parseo y renderizado con 61% menos asignaciones de objetos. La herramienta está disponible como open source en GitHub.

¿Cómo opera Anthropic su marketing de crecimiento con una sola persona?

Austin Lau, una persona no técnica, manejó los 6 canales de marketing de crecimiento de Anthropic durante 10 meses: publicidad pagada en search y social, app stores, email y SEO. Usa Claude Code para exportar datos de campañas, dos agentes especializados para generar variaciones de anuncios, un plugin de Figma y un servidor MCP conectado a la API de Meta.

¿Qué tienen en común los agentes de IA de Shopify y Anthropic?

Ambos siguen el mismo patrón: un humano define la dirección y las restricciones, un agente de IA ejecuta decenas de experimentos a velocidad de máquina, y el humano revisa los resultados para decidir qué conservar. En Shopify, Tobi evaluó 29 experimentos y conservó 10. En Anthropic, cada resultado alimenta un sistema de memoria para el siguiente ciclo. El humano dirige, no ejecuta.

¿Qué condiciones necesita una empresa B2B para usar agentes autónomos de IA en producción?

Tres condiciones previas: una métrica cuantificable y limpia (tiempo de respuesta, tasa de error, costo por adquisición), datos históricos suficientes para que el agente tenga contra qué comparar, y restricciones bien definidas que el agente no pueda cruzar. Las herramientas son accesibles para todos — lo que distingue a los casos exitosos es la calidad de la preparación.

www.iqsource.ai

Shopify y Anthropic: agentes de IA en producción real

Ricardo Argüello

Shopify y Anthropic: agentes de IA en producción real

Ricardo Argüello — 13 de marzo de 2026

Ricardo Argüello

CEO & Fundador

13 de marzo de 2026 IA y Automatización 8 min de lectura

Cinco días atrás analizamos autoresearch como concepto: 630 líneas de código, un agente que itera sin intervención humana y un patrón de dirección + restricciones que aplica más allá de la investigación académica. Esa semana era teoría. Esta semana tenemos números de producción.

El martes, Tobi Lutke — CEO de Shopify, empresa de $120B de capitalización y 5.6 millones de tiendas — corrió autoresearch sobre el motor de renderizado Liquid. Resultado: 53% más velocidad, 61% menos asignaciones de objetos, 21 archivos modificados. Aakash Gupta desglosó los números el mismo día.

Dos días antes, Anthropic reveló que una sola persona no técnica manejó todo su marketing de crecimiento durante 10 meses — 6 canales, $19B en ingresos anualizados, $380B de valuación.

Misma semana, dos escalas, un patrón idéntico.

Liquid: 53% más rápido, 21 archivos, una noche

Liquid es el motor de plantillas detrás de cada tienda en Shopify. Cada vez que un comprador carga una página de producto, Liquid parsea la plantilla y renderiza el HTML. Multiplica eso por 5.6 millones de tiendas y miles de millones de peticiones al día. Un 1% de mejora en rendimiento de Liquid tiene impacto medible en la infraestructura global de Shopify.

Tobi no pidió 1%. Apuntó autoresearch — la herramienta de Karpathy que analizamos la semana pasada — directamente al código de Liquid y lo dejó correr.

Lo que el agente hizo, en términos técnicos: reemplazó coincidencia de bytes por expresiones regulares compiladas, eliminó dispatches de método intermedios con inlining, y sustituyó bucles each/while por iteraciones for optimizadas. No son cambios glamorosos. Son las optimizaciones que un ingeniero senior haría con tres semanas y acceso completo a los profilers. El agente las encontró en una sesión nocturna.

Los números: 29 experimentos ejecutados. 19 descartados. 10 conservados. 21 archivos cambiados. Resultado combinado: 53% más velocidad en parse+render, 61% menos asignaciones de objetos.

No era la primera vez. En una corrida previa sobre un modelo de query-expansion, autoresearch ejecutó 37 experimentos y logró 19% de mejora — con un modelo de 0.8B parámetros superando a uno de 1.6B. La herramienta ya tenía historial antes de tocar Liquid.

Hay que mencionar lo que Tobi mismo dijo: los resultados están “somewhat overfit”. Lo tradujo como advertencia honesta — los benchmarks miden un escenario específico, y el rendimiento en producción real puede diferir. Es la clase de matiz que la mayoría de los tweets sobre IA omiten. Que el CEO de una empresa de $120B lo mencione proactivamente dice algo sobre la madurez de cómo está evaluando la herramienta.

Y hay un detalle que merece atención: es el CEO de una empresa pública de esa escala corriendo personalmente una herramienta de investigación autónoma sobre código de producción en una tarde de miércoles. No delegó a un equipo de investigación. No lo puso en un roadmap trimestral. Simplemente lo ejecutó.

Un equipo de marketing de una persona

Al otro lado del espectro — marketing en vez de infraestructura — Anthropic reveló algo igual de llamativo.

Contexto: Anthropic, la empresa detrás de Claude, pasó de $9B a $19B en ingresos anualizados en tres meses. Su valuación alcanzó $380B. Tiene más de 3,000 empleados. No es una startup en etapa temprana.

Austin Lau es una persona. No técnica. Durante 10 meses, manejó los 6 canales de marketing de crecimiento de Anthropic: search pagado, social pagado, app stores, email y SEO. Para referencia, el benchmark de la industria para operar esos 6 canales es un equipo de 15 a 20 personas con $3M a $5M en payroll anual.

Su flujo de trabajo: Claude Code exporta datos de campañas y marca anomalías automáticamente. Dos agentes especializados generan 100 variaciones de copy y creativos en 0.5 segundos. Un plugin de Figma intercambia templates de anuncios sin intervención manual. Un servidor MCP consulta directamente la API de Meta Ads para obtener métricas en tiempo real. Un sistema de memoria alimenta los aprendizajes de cada ciclo al siguiente.

El resultado: una persona operando la maquinaria de marketing de una empresa de $380B de valuación. No como experimento piloto. Durante 10 meses en producción.

Hay que ser claros con el caveat: esto es Anthropic hablando sobre su propio producto. El caso fue publicado como parte de su estrategia de comunicación. Los números no tienen auditoría externa. Es como si Toyota publicara un estudio sobre la confiabilidad de sus propios vehículos — probablemente cierto, pero la fuente merece contexto. Aun así, la escala y la duración hacen difícil descartarlo completamente.

El mismo patrón, dos escalas

Si pones los dos casos lado a lado, la estructura es la misma:

	Shopify	Anthropic
Dominio	Código de infraestructura	Operaciones de marketing
Métrica	Tiempo de parse+render	Rendimiento de campañas
Experimentos	29 ejecutados, 10 conservados	Ciclo continuo
Rol humano	Evaluar y hacer merge	Dirigir y escalar
Caveat	”Somewhat overfit”	Auto-reportado

En ambos casos, el humano no desaparece. Cambia de posición. Pasa de la ejecución a la dirección. Tobi no escribió las optimizaciones de Liquid — las evaluó y decidió cuáles conservar. Austin no diseñó cada anuncio ni ajustó cada bid — definió los canales, las restricciones de presupuesto y los criterios de éxito.

Esto es exactamente lo que describimos en el análisis del operador de agentes: tanto Tobi como Austin están actuando como directores de orquesta de agentes autónomos. El valor ya no está en la ejecución repetitiva — está en saber qué pedir, cómo restringirlo y cuándo intervenir.

Y el loop de autoresearch que analizamos en 630 líneas ya no es un concepto académico. Está operando a escala de $120B y $380B.

Las condiciones que nadie menciona

Lo fácil es leer estos dos casos y concluir: “necesito implementar agentes autónomos”. Lo difícil — y lo que separa la adopción con criterio del entusiasmo sin sustancia — es preguntarse por qué funcionaron.

Ambos casos comparten tres precondiciones:

Métricas limpias y cuantificables. Liquid tiene benchmarks de rendimiento: tiempo de parse, tiempo de render, asignaciones de memoria. El marketing de Anthropic tiene costo por adquisición, CTR, conversión por canal. En ambos casos, el agente sabe exactamente contra qué comparar cada iteración. Sin esa métrica, el agente itera a ciegas.

Infraestructura lista. Shopify tiene un codebase maduro con suites de pruebas y profilers. Anthropic tiene APIs de plataformas publicitarias y sistemas de datos conectados. Los agentes no crearon esa infraestructura — la usaron. Si tu proceso vive en hojas de cálculo compartidas y emails reenviados, el agente no tiene sobre qué operar.

Liderazgo dispuesto a experimentar. Tobi corrió autoresearch personalmente. Austin tuvo 10 meses de autonomía operativa. En ambos casos, la autorización para experimentar vino desde arriba, no desde un comité que necesitó 6 meses para aprobar un piloto.

En nuestra experiencia en IQ Source, el cuello de botella nunca es acceso a herramientas. Autoresearch es open source. Claude Code está disponible por suscripción. Las APIs de Meta y Google son públicas. Lo que distingue a los equipos que obtienen resultados es la preparación: procesos mapeados con métricas definidas, y restricciones bien documentadas antes de soltar al agente.

Esto conecta directamente con lo que analizamos sobre ingeniería de contexto: la calidad del output de un agente es proporcional a la calidad del contexto que recibe. Shopify y Anthropic no usaron herramientas mágicas — le dieron a las herramientas existentes contexto de alta calidad.

Para empresas B2B en Latinoamérica, la pregunta no es “¿puedo replicar lo que hizo Shopify?” La respuesta es que las herramientas ya están disponibles. La pregunta correcta es: “¿tengo las precondiciones?”

Tu primer experimento no tiene que ser Liquid

Liquid procesa miles de millones de peticiones. El marketing de Anthropic opera con $19B en revenue. Los números son llamativos, pero no necesitas operar a esa escala para aplicar el patrón.

Lo que necesitas es un proceso con una métrica clara. Un solo proceso. Una sola métrica.

Ejemplos concretos para empresas medianas: precisión de órdenes de compra (¿cuántas pasan sin corrección manual?), tiempo de procesamiento de documentos (de recepción a clasificación), velocidad de respuesta a cotizaciones (de solicitud a propuesta enviada), merma de inventario (diferencia entre sistema y conteo físico).

Todos tienen un número que baja o sube. Todos dependen hoy de manos humanas para probar ajustes, medir resultados y decidir qué conservar. Cualquiera de ellos puede tener un agente iterando durante la noche mientras el equipo descansa.

No estamos hablando de reemplazar equipos. Estamos hablando de que el equipo llegue a la mañana siguiente con 20 variaciones probadas en vez de haber probado 2 a mano la semana pasada.

Envíanos el nombre de un proceso y la métrica con la que lo mides hoy. Te devolvemos un diagnóstico rápido: qué tienes listo, qué falta y cuál sería el primer experimento viable. Sin reunión — solo un email de ida y vuelta.

Enviar proceso y métrica →

Preguntas Frecuentes

agentes de IA automatización empresarial Shopify Anthropic autoresearch operaciones con IA resultados en producción

Servicios Empresariales B2B

Desarrollo de Software

Marketing Digital

Herramientas Gratuitas

Shopify y Anthropic: agentes de IA en producción real

Shopify y Anthropic: agentes de IA en producción real

Resumen general

Liquid: 53% más rápido, 21 archivos, una noche

Un equipo de marketing de una persona

El mismo patrón, dos escalas

Las condiciones que nadie menciona

Tu primer experimento no tiene que ser Liquid

Preguntas Frecuentes

Artículos Relacionados

Ataque a LiteLLM: tu cadena de confianza de IA, rota

Google Stitch y AI Studio: diseño y código sin ingenieros

Asistente IQ Source