Saltar al contenido principal

Investigación autónoma: lo que autoresearch revela

Karpathy publicó autoresearch: 630 líneas de código, 100 experimentos por noche sin intervención humana. Lo que esto anticipa para operaciones B2B.

Investigación autónoma: lo que autoresearch revela

Ricardo Argüello

Ricardo Argüello
Ricardo Argüello

CEO & Fundador

IA y Automatización 7 min de lectura

Karpathy publicó un repositorio que ejecuta investigación de IA mientras él duerme. No como metáfora — literalmente configura un archivo, se va a dormir, y al amanecer tiene 100 experimentos completados con resultados rankeados.

Para quien no lo ubique: Andrej Karpathy fue Director de IA en Tesla (lideró la visión de Autopilot), miembro fundador de OpenAI, PhD de Stanford, y ahora fundador de Eureka Labs. Cuando publica algo, no es un proyecto casual de fin de semana. Es una señal de hacia dónde se mueve la industria.

Cloné el repo y leí el código. Son 630 líneas. Eso es todo. Y lo que hacen esas 630 líneas es más interesante que la mayoría de los papers de investigación que he leído este año. Pero lo importante no es el código en sí — es el patrón que demuestra. Loops autónomos de iteración-prueba-evaluación que ya se aplican a operaciones de negocio.

Qué hace autoresearch (en concreto)

El flujo es directo. El humano escribe un archivo llamado program.md — instrucciones de alto nivel sobre qué investigar. El agente toma esas instrucciones, modifica train.py, entrena un modelo durante 5 minutos, evalúa la pérdida de validación (val_bpb), decide si el cambio mejoró o empeoró el resultado, y repite. Sin intervención humana.

Los números: ~12 experimentos por hora. ~100 en una noche. Cada uno es una corrida completa de entrenamiento de un LLM.

Lo elegante es cómo usa git como memoria. Cada experimento es un commit en una feature branch. Si el resultado mejora, el commit se conserva. Si empeora, se descarta. El historial de git se convierte en un registro completo de qué funcionó y qué no — sin necesidad de bases de datos, dashboards, ni herramientas externas.

Todo corre en una sola GPU. Es autocontenido. Como dijo Karpathy: “Part code, part sci-fi, and a pinch of psychosis.”

El repositorio está en GitHub y es open-source.

El patrón que importa: iterar sin esperar

Si abstraes lo que hace autoresearch, el patrón es: definir objetivo → agente intenta soluciones → medir contra métrica → conservar o descartar → repetir.

Ese patrón ya existe en todas las empresas. Lo que cambia es quién está en cada parte del loop. Hoy, los humanos están en el loop de iteración — probando configuraciones, ajustando parámetros, ejecutando pruebas, revisando resultados. Eso es cuello de botella. No por falta de capacidad, sino porque un humano hace una cosa a la vez y necesita dormir.

Lo que demuestra autoresearch es una separación limpia: el humano se queda en el loop de dirección — define qué investigar, qué restricciones aplicar, qué métricas importan. El agente se queda en el loop de iteración — ejecuta, mide, decide, repite. Karpathy escribe program.md; el agente hace todo lo demás.

Esto es exactamente lo que vemos en la función de operador de agentes que ya estamos implementando con clientes. El humano no desaparece — cambia de posición. Pasa de ejecutar a dirigir.

En un proyecto reciente, configuramos un agente de validación de datos que probó 40 reglas de extracción diferentes durante la noche. El equipo llegó a la mañana siguiente con una lista rankeada de las que mejor funcionaban. Lo que habría tomado una semana de prueba-error manual se resolvió en 8 horas sin supervisión.

De un agente a un enjambre

Pero Karpathy no se detuvo en un solo agente iterando. Su siguiente publicación plantea algo más ambicioso: enjambres de agentes colaborativos al estilo SETI@home. No un estudiante de PhD virtual, sino una comunidad de investigación de agentes.

La idea: muchos agentes trabajando de forma asíncrona en problemas compartidos. En vez de un loop individual, múltiples agentes adoptan ramas distintas, acumulan miles de commits, y exploran el espacio de soluciones más rápido que cualquier agente solo.

La cita que me quedó: “Existing abstractions will accumulate stress as intelligence, attention and tenacity cease to be bottlenecks.” Es decir — las herramientas y procesos que usamos fueron diseñados para velocidad humana. Cuando esa restricción desaparece, las herramientas se rompen.

El ejemplo concreto: el diseño de GitHub asume flujos humanos. Master → branch → merge → review. Un agente que produce miles de commits en estructuras arbitrarias no encaja en ese flujo. Las abstracciones se tensan.

El paralelo empresarial es directo. Las cadenas de aprobación, los procesos de QA, los ciclos de reporting — todos asumen que el output llega a velocidad humana. Si un agente produce resultados a 12 por hora, necesitas revisión por lotes, validación estadística, y gates de calidad automatizados. No puedes revisar 100 experimentos uno por uno al estilo de un PR de código.

Y esto no es una predicción a 5 años. autoresearch funciona hoy. La capa colaborativa es lo siguiente.

Lo que todavía no funciona

Hay que ser honestos. autoresearch optimiza una métrica estrecha y limpia: val_bpb (pérdida de validación en bits por byte). Un número que baja = mejor. No hay ambigüedad.

La mayoría de problemas de negocio no tienen una sola métrica limpia. “Mejorar satisfacción del cliente” no es val_bpb. “Reducir costos operativos” involucra trade-offs entre calidad, velocidad y cumplimiento que un agente no puede resolver solo.

Los agentes carecen de juicio estratégico. Optimizan la métrica que les das, pero no entienden por qué esa dirección importa. Un agente que reduce costos de extracción de datos un 30% pero introduce errores en campos regulados no resolvió nada — creó un problema nuevo.

Y en industrias reguladas, el “qué cambió” (un diff de git) no basta. Necesitas explicar por qué se hizo cada cambio y qué riesgos se evaluaron. Eso todavía requiere humanos.

Qué significa para tu operación

La iteración autónoma ya es viable para problemas bien definidos. Si tienes un proceso con una métrica clara — precisión de órdenes, tasa de extracción, tiempo de respuesta — un agente puede iterar durante la noche. No necesitas 630 líneas de código ML. Necesitas un loop claro: intentar → medir → decidir → repetir.

El modelo de “dirección + restricciones” es cómo se despliegan agentes hoy. El program.md de Karpathy es la plantilla. Define qué quieres lograr y qué está fuera de límites. El agente ejecuta dentro de esos bordes. Esto es exactamente lo que describimos en la guía de agentes para operaciones empresariales — la diferencia entre un agente útil y uno peligroso está en la calidad de las restricciones.

Tus herramientas no fueron diseñadas para iteración a velocidad de agente. 100 experimentos por noche significa que tu control de versiones, flujos de aprobación, y monitoreo necesitan manejar ese volumen. No puedes hacer review manual de cada resultado. Necesitas estructuras organizativas que asuman output continuo, no entregas discretas.

Karpathy incluyó un párrafo que suena a ciencia ficción — sobre “computadoras de carne” que programan agentes que ejecutan investigación. Suena a ficción, pero autoresearch es el primer párrafo de esa historia siendo escrito hoy.

La implicación para las empresas no es “la IA reemplaza a todos.” Es que las empresas que descubran cómo dirigir loops de iteración autónoma — con métricas claras, buenas restricciones, y supervisión humana a nivel estratégico — van a operar a una velocidad diferente. Las que sigan esperando a que cada ciclo pase por manos humanas van a competir contra organizaciones que iteran 12 veces por hora.

Si ya tienes un proceso con una métrica clara y un ciclo de iteración manual, ese es tu candidato. En IQ Source, definimos el equivalente de tu program.md y configuramos el loop. Agenda una sesión de 60 minutos y lo mapeamos juntos.

Preguntas Frecuentes

inteligencia artificial agentes autónomos investigación con IA automatización empresarial Andrej Karpathy operaciones B2B experimentación autónoma

Artículos Relacionados

Ataque a LiteLLM: tu cadena de confianza de IA, rota
IA y Automatización
· 8 min de lectura

Ataque a LiteLLM: tu cadena de confianza de IA, rota

LiteLLM, el proxy de API keys de IA con 97 millones de descargas mensuales, fue envenenado vía PyPI. Tu escáner de seguridad fue el vector de entrada.

seguridad de IA cadena de suministro de software LiteLLM
Google Stitch y AI Studio: diseño y código sin ingenieros
IA y Automatización
· 8 min de lectura

Google Stitch y AI Studio: diseño y código sin ingenieros

Google lanzó un pipeline completo de diseño a producción con Stitch y AI Studio. Qué sirve para prototipos B2B y dónde necesitas ingeniería real.

Google Stitch vibe coding vibe design