Cambia GPT-5 por Claude dentro de un agente en funcionamiento y, la mayoría de las veces, el comportamiento apenas cambia. Modifica cómo gestiona los reintentos, qué introduces en su ventana de contexto o cuándo decide detenerse, y el agente completo se comporta de manera diferente. Esa brecha lo delata: el modelo es la parte más pequeña y más intercambiable de un agente en funcionamiento. La ingeniería interesante vive en todo lo que lo rodea.
Ese wrapper ya tiene nombre. Los profesionales adoptaron "harness" para la capa que convierte un generador de texto en algo que toma acciones a lo largo del tiempo en lugar de ejecutar un script fijo. El término se propagó rápidamente por Twitter y blogs de ingeniería a principios de 2026, lo que también significa que se usó de manera imprecisa, con la misma palabra haciendo un trabajo ligeramente diferente en cada artículo que lees. Este artículo lo precisa: qué es un harness, de qué está hecho, en qué difiere de un "framework" y un "scaffold", y por qué la mayor parte de la calidad de tu agent está oculta en el harness, no en el modelo.
La versión corta
- Un agent harness es el software alrededor de un LLM que gestiona el bucle de ejecución, las herramientas, la memoria, el contexto, el estado, el manejo de errores y los límites de seguridad. El modelo genera texto; el harness decide qué ve el modelo, qué puede hacer, cuándo detenerse y qué sucede cuando algo falla.
- En producción, la llamada al modelo suele ser la parte visible más pequeña de la superficie del sistema. Un modelo más débil en un harness bien construido puede superar a un modelo más potente en uno descuidado, especialmente en tareas largas con muchas herramientas.
- Un harness tiene aproximadamente nueve a once componentes recurrentes. La mayoría son cosas que el modelo nunca toca directamente.
- "Harness" no es lo mismo que "framework". Un framework (LangGraph, un agents SDK) es la biblioteca con la que construyes; el harness es la capa en ejecución que esa biblioteca te ayuda a ensamblar.
¿Qué es un Agent Harness?
Un agent harness es la infraestructura de software que rodea a un modelo de lenguaje y gestiona el bucle de ejecución, el acceso a herramientas, la memoria, el contexto, la persistencia de estado, el manejo de errores y los límites de seguridad. El modelo genera texto. El harness decide qué ve el modelo en cada turno, qué acciones puede tomar, cuándo se detiene y qué sucede cuando falla un paso.
La formulación más clara viene de LangChain, que lo reduce a una ecuación: Agent = Model + Harness. El modelo aporta la inteligencia. El arnés es lo que hace que esa inteligencia haga algo en el mundo.
"Un harness es todo el código, la configuración y la lógica de ejecución que no es el modelo en sí."
— LangChain, La anatomía de un harness de agente
Encuentro que el límite es más fácil de percibir a través de una pregunta: cuando tu agente hace algo incorrecto, ¿el razonamiento propio del modelo estaba equivocado, o el sistema a su alrededor le dio al modelo el contexto incorrecto, las herramientas incorrectas, o ninguna forma de recuperarse? La mayoría de las veces, en un sistema real, es lo segundo. El modelo razonó correctamente sobre entradas incorrectas. El harness es lo que controla las entradas.
Conclusión clave: El modelo genera; el harness gobierna. Esa división es todo el concepto.
¿Cuáles son los componentes de un harness de agente?
Cada harness de producción ensambla las mismas partes recurrentes: un bucle de ejecución que impulsa el modelo turno a turno, acceso a herramientas que le permite actuar, memoria entre turnos, gestión de contexto para lo que ve ahora mismo, persistencia de estado para que el trabajo sobreviva entre sesiones, manejo de errores para pasos fallidos, y barreras que restringen lo que puede hacer. Los sistemas de producción añaden bucles de verificación y orquestación de subagentes.
Un inventario útil, extraído de cómo los profesionales describen los sistemas reales:
- Bucle de ejecución / control: lo que impulsa al agente turno a turno. Llamar al modelo, leer su salida, ejecutar la herramienta solicitada, devolver el resultado, repetir hasta la condición de parada.
- Acceso a herramientas: las funciones, API, ejecución de código y sistema de archivos a los que el modelo puede acceder.
- Memoria: lo que el agente retiene entre turnos y entre sesiones.
- Gestión del contexto: lo que se empaqueta en la ventana del modelo en cada turno, y lo que se compacta cuando se desborda.
- Persistencia de estado / puntos de control: guardar el estado del agente para que una ejecución fallida o pausada pueda reanudarse.
- Manejo de errores: reintentos, alternativas y recuperación cuando falla una llamada a una herramienta o al modelo.
- Salvaguardas: límites sobre lo que el agente puede hacer, como herramientas permitidas, límites de pasos y validación de salida.
- Bucles de verificación: hacer que el agente (o el harness) compruebe su propio trabajo antes de darlo por terminado.
- Orquestación de subagentes: crear, delegar y recopilar resultados de subagentes en tareas más grandes.
No todos estos son universales. El bucle de ejecución, las herramientas, el manejo del contexto y el manejo de errores aparecen incluso en un prototipo de fin de semana. La persistencia de estado, la verificación y la orquestación de subagentes son donde los prototipos y los sistemas de producción se separan. Un prototipo puede omitirlos; un agente de producción de larga duración no puede. El artículo de Anthropic sobre agentes de larga duración es un recorrido por las partes exclusivas de producción: cómo un agente reconstruye su comprensión a partir de un archivo de progreso después de que su ventana de contexto se reinicia, y cómo las pruebas se integran en el bucle.
Para quien quiera el puente académico, un reciente encuesta sobre arquitecturas de agentes condensa esta misma maquinaria en una tupla formal más pequeña de componentes principales. La lista del profesional y el marco de la encuesta son dos niveles de zoom sobre la misma estructura: la encuesta comprime, el inventario anterior expande. Trate el recuento de nueve a once como los componentes que comparten la mayoría de los harness de producción, no como un estándar ratificado; el campo aún no ha ratificado nada.
Conclusión clave: La mayoría de las partes móviles de un agente viven en el harness, no en el modelo. El modelo es un componente entre muchos.
¿Por qué el harness importa más que el modelo?
Un modelo más débil dentro de un harness bien diseñado supera con frecuencia a un modelo más fuerte en uno mal diseñado. La razón es mecánica, no mágica: la fiabilidad end-to-end de un agente es el producto de la fiabilidad de cada paso, y la mayoría de esos pasos (selección de herramientas, ensamblado de contexto, recuperación de errores) son responsabilidad del harness, no del modelo. Mejóralos y toda la cadena se vuelve más fiable, independientemente del modelo que esté dentro.
La aritmética lo hace concreto. Supongamos que cada paso en una tarea de diez pasos tiene éxito el 99% del tiempo. El éxito end-to-end no es el 99%. Es 0,99 a la décima potencia, aproximadamente el 90%. Lleva cada paso al 99,9% y el end-to-end salta a aproximadamente el 99%. La fiabilidad por paso se acumula, y la fiabilidad por paso es abrumadoramente una propiedad del harness. Por eso optimizar el manejo de errores y la gestión del contexto rinde más que cambiar a un modelo medio punto mejor en algún benchmark.
Hay señales de producción que apuntan en la misma dirección. MongoDB, citando el caso de estudio de Vercel, informa que Vercel redujo la mayor parte de las herramientas de su agente y vio cómo su tasa de éxito aumentaba bruscamente en el mismo modelo, con un harness más pequeño y limpio. Léalo como evidencia convergente en lugar de prueba: es un caso de producción, no un experimento controlado, pero apunta en la misma dirección que la aritmética compuesta y el trabajo de encuesta anteriores.
Esta es la heurística a la que sigo volviendo como ingeniero de plataforma: el contexto es el cuello de botella, no la capacidad bruta del modelo, y el andamiaje construido para cubrir las deficiencias actuales del modelo tiende a desaparecer a medida que los modelos mejoran. Construye las partes duraderas del harness (el bucle, el estado, la recuperación) y deja que el modelo subyacente mejore según su propio calendario.
Conclusión clave: Cuando tu agente falla, sospecha del harness antes que del modelo. Las probabilidades lo favorecen.
¿Cuál es la diferencia entre un harness, un scaffold y un framework?
Estos tres se usan indistintamente, y no deberían serlo. Un framework es la biblioteca o SDK con el que construyes, como LangGraph o un SDK de agentes. Un harness es la capa de ejecución y gobernanza alrededor del modelo, que un framework le ayuda a ensamblar. Un scaffold es el más flexible de los tres: a veces casi sinónimo del harness, a veces la versión prototipo de uno, a veces específicamente la capa de prompt y descripción de herramientas.
El vocabulario está genuinamente sin establecer, y lo más claro es mapear los usos en lugar de legislar uno. El de HuggingFace Glosario de agentes lo dice directamente:
"Muchos de estos términos aún no tienen definiciones universalmente aceptadas, y diferentes frameworks usan la misma palabra de manera diferente."
— HuggingFace, Glosario de agentes
| Término | A qué se refiere | Relación |
|---|---|---|
| Framework | La biblioteca o SDK con la que construyes (LangGraph, un SDK de agentes) | Una herramienta para ensamblar un harness |
| Harness | La capa en ejecución alrededor del modelo: bucle, herramientas, contexto, estado, salvaguardas | Lo que despliegas y ejecutas |
| Scaffold | Usado de forma amplia: casi sinónimo de harness, o la versión de prototipo / capa de prompt | Se superpone con harness; menos preciso |
| Bucle | El ciclo de ejecución dentro del harness | Un componente del harness |
La conclusión práctica para razonar sobre tu propio sistema: cuando alguien dice "framework", pregunta si se refiere a la biblioteca o a la cosa que se ejecuta. Cuando alguien dice "scaffold", pregunta si se refiere a todo el harness o solo a la capa de prompt y herramientas. La desambiguación es el valor aquí, no una reclamación a la última palabra.
¿Cómo implementa LangGraph el patrón harness?
LangGraph es una implementación Python de código abierto popular del patrón harness. Modela la ejecución del agente como un grafo dirigido de nodos y aristas, con estado tipado fluyendo entre ellos y cada transición con posibilidad de checkpoint. Si los componentes abstractos anteriores parecen escurridizos, LangGraph es el lugar para verlos tomar forma concreta en una herramienta real.
El mapeo es casi de uno a uno. Los nodos y las aristas son el bucle de ejecución: cada nodo hace trabajo, cada arista decide adónde va el control a continuación. El objeto de estado tipado pasado entre nodos es el componente de contexto-y-estado hecho explícito. El checkpointing (LangGraph persiste el estado a través de savers como su implementación respaldada por Postgres) es el componente de persistencia de estado. Un límite de pasos configurable es un guardrail de condición de parada, que evita que un agente con mal comportamiento bucle indefinidamente. Los mismos componentes, nombrados y conectados por una biblioteca específica.
Si quieres ejecutar un agente LangGraph en tu propio servidor, las 24 horas del día, eso es una pregunta de despliegue más que conceptual. Ver nuestra guía de Linux VPS para esa ruta. Aquí, LangGraph es solo el ejemplo trabajado: prueba de que "bucle de ejecución", "persistencia de estado" y "guardrail" no son abstracciones, son cosas que puedes señalar en código real.
Preguntas frecuentes
¿Qué es un Agent Harness?
Un agent harness es el software alrededor de un modelo de lenguaje que lo convierte en un agente. Gestiona el bucle de ejecución, el acceso a herramientas, la memoria, el contexto, la persistencia de estado, el manejo de errores y los guardrails. El modelo genera texto; el harness decide qué ve el modelo, qué puede hacer, cuándo detenerse y qué sucede cuando algo falla.
¿Es un arnés de agente lo mismo que un framework de agente?
No. Un framework es la biblioteca o SDK con la que construyes, como LangGraph o un SDK de agentes. El arnés es la capa de ejecución y gobernanza activa alrededor del modelo (el bucle, las herramientas, el contexto, el estado y las salvaguardas) que un framework te ayuda a ensamblar. Usas un framework para construir un arnés.
¿Qué componentes tiene cada arnés de agente?
La mayoría de los arneses comparten un núcleo recurrente: un bucle de ejecución, acceso a herramientas, memoria, gestión del contexto, persistencia de estado, manejo de errores y salvaguardas. Los arneses de producción añaden bucles de verificación y orquestación de subagentes. Los prototipos pueden omitir las partes solo de producción, pero el bucle, las herramientas, el manejo del contexto y el manejo de errores aparecen casi en todas partes.
¿Qué significa «El LLM es la parte más pequeña de tu sistema de agente»?
Significa que la mayor parte del comportamiento y la fiabilidad de un agente proviene del arnés, no del modelo. La fiabilidad de extremo a extremo es el producto de la tasa de éxito de cada paso, y la mayoría de los pasos son trabajo del arnés. MongoDB, citando el caso de estudio de Vercel, reporta un salto en la tasa de éxito solo por cambios en el arnés, con el mismo modelo. Eso es evidencia de que arreglar el arnés supera a arreglar el modelo.
Dónde vive la calidad de tu agente
El arnés es donde vive la mayor parte de la calidad de un agente, y ahora tienes el vocabulario para localizar problemas en tu propio sistema. Puedes definir un arnés, nombrar sus componentes, diferenciarlo de un framework y un scaffold, y razonar sobre si un fallo determinado es un problema del modelo o un problema del arnés.
Entonces, la próxima vez que tu agente se comporte mal, audita primero la capa del arnés: el contexto que le estás alimentando, las herramientas que has expuesto, las condiciones de parada que has establecido, la forma en que se recupera de un paso fallido. Busca un modelo más grande solo después de que esa capa esté verificada. La mayoría de las veces, no lo necesitarás.