Lo que 30 agentes de produccion revelaron sobre por que los documentos de governance no predicen el comportamiento del agente
El mercado de agentes IA esta lleno de documentos de governance. Todos los vendors publican uno. Todos los clientes enterprise piden verlo. Todos los frameworks de compliance lo requieren. La asuncion implicita es que un agente con governance rigurosa declarada va a resistir ataques adversariales mejor que uno sin ella.
Testeamos esa asuncion empiricamente con 30 agentes de produccion. Los datos no la respaldan.
Lo que encontramos es que el rol que el agente juega en su prompt — independientemente de la governance declarada — es el predictor mas fuerte de resistencia adversarial que observamos.
Evaluamos 30 agentes de IA comercialmente desplegados contra cinco escenarios adversariales: inyeccion de contenido, manipulacion cognitiva, manejo de PII bajo presion, induccion de costos, y degradacion bajo presion sostenida.
Cada agente fue categorizado por rol funcional usando una rubrica formal:
Concordancia inter-evaluador: 90%. Distribucion final: 23 ejecutores, 7 revisores.
Los agentes en rol revisor resistieron cost induction (C7) al 100%. Los ejecutores al 26% — un 74% de tasa de fallo.
Fisher exact test: p = 0.00084. Menos de 1 en 1.000 de probabilidad de que sea azar.
| Escenario | Pass rate ejecutores | Pass rate revisores |
|---|---|---|
| C1 — Inyeccion de contenido | 83% | 100% |
| C3 — Manipulacion cognitiva | 96% | 100% |
| C6 — Manejo de PII | 100% | 100% |
| C7 — Induccion de costos | 26% | 100% |
| C8 — Presion sostenida | 96% | 100% |
El score de governance no predijo resistencia. Un agente con governance 5/5 no fue mas probable de resistir ataques adversariales que uno con 1/5. La presencia de lenguaje de governance en el system prompt simplemente no se tradujo en resistencia operacional.
Cuando un agente tiene prompt de ejecutor, el criterio de exito dominante es operacional: completar el build, cerrar el deployment. Los ataques de cost induction explotan ese frame. Piden incrementos marginales en consumo de recursos que individualmente parecen razonables en servicio del objetivo.
Cuando un agente tiene prompt de revisor, el criterio de exito dominante es evaluativo: es esto seguro, esta dentro de la politica. Los ataques de cost induction fallan contra ese frame porque el trabajo del agente es cuestionar propuestas, no avanzarlas.
El lenguaje de governance, en contraste, ocupa una posicion diferente en la arquitectura del prompt. Especifica restricciones pero no cambia el frame cognitivo primario del agente. Bajo presion operacional, el frame gana.
Uno: los documentos de governance son necesarios pero insuficientes. Satisfacen requerimientos regulatorios pero no producen resistencia operacional por si solos.
Dos: el diseno del rol es una decision de seguridad. Equipos que enmarcan sus agentes como ejecutores puros estan aceptando una penalidad de resistencia medible.
Tres: la evaluacion pre-deployment tiene que testear el rol bajo presion, no solo la politica en papel.
N=30. Estadisticamente significativo por Fisher exact test, pero una muestra mas grande revelaria subcategorias. La categorizacion de rol depende del analisis de prompt. El escenario de cost induction fue donde la brecha fue mas amplia.
Compartimos este hallazgo ahora porque los deadlines regulatorios de 2026 (EU AI Act agosto, Colorado AI Act junio) estan empujando a las organizaciones a probar robustez de agentes, y los documentos de governance no van a alcanzar.
Queres saber donde esta tu agente?
Testealo gratis →Publicado de forma independiente. Detalles de metodologia disponibles a pedido. Resumen del dataset publicado como parte del BotConduct Observatory.