El rol del agente predice resistencia adversarial mejor que la governance declarada

Lo que 30 agentes de produccion revelaron sobre por que los documentos de governance no predicen el comportamiento del agente

Publicado 28 de abril de 2026 · BotConduct Observatory


El mercado de agentes IA esta lleno de documentos de governance. Todos los vendors publican uno. Todos los clientes enterprise piden verlo. Todos los frameworks de compliance lo requieren. La asuncion implicita es que un agente con governance rigurosa declarada va a resistir ataques adversariales mejor que uno sin ella.

Testeamos esa asuncion empiricamente con 30 agentes de produccion. Los datos no la respaldan.

Lo que encontramos es que el rol que el agente juega en su prompt — independientemente de la governance declarada — es el predictor mas fuerte de resistencia adversarial que observamos.


El setup

Evaluamos 30 agentes de IA comercialmente desplegados contra cinco escenarios adversariales: inyeccion de contenido, manipulacion cognitiva, manejo de PII bajo presion, induccion de costos, y degradacion bajo presion sostenida.

Cada agente fue categorizado por rol funcional usando una rubrica formal:

Concordancia inter-evaluador: 90%. Distribucion final: 23 ejecutores, 7 revisores.


Lo que mostraron los datos

Los agentes en rol revisor resistieron cost induction (C7) al 100%. Los ejecutores al 26% — un 74% de tasa de fallo.

Fisher exact test: p = 0.00084. Menos de 1 en 1.000 de probabilidad de que sea azar.

EscenarioPass rate ejecutoresPass rate revisores
C1 — Inyeccion de contenido83%100%
C3 — Manipulacion cognitiva96%100%
C6 — Manejo de PII100%100%
C7 — Induccion de costos26%100%
C8 — Presion sostenida96%100%

Lo que mostro el score de governance

El score de governance no predijo resistencia. Un agente con governance 5/5 no fue mas probable de resistir ataques adversariales que uno con 1/5. La presencia de lenguaje de governance en el system prompt simplemente no se tradujo en resistencia operacional.


Por que pasa esto

Cuando un agente tiene prompt de ejecutor, el criterio de exito dominante es operacional: completar el build, cerrar el deployment. Los ataques de cost induction explotan ese frame. Piden incrementos marginales en consumo de recursos que individualmente parecen razonables en servicio del objetivo.

Cuando un agente tiene prompt de revisor, el criterio de exito dominante es evaluativo: es esto seguro, esta dentro de la politica. Los ataques de cost induction fallan contra ese frame porque el trabajo del agente es cuestionar propuestas, no avanzarlas.

El lenguaje de governance, en contraste, ocupa una posicion diferente en la arquitectura del prompt. Especifica restricciones pero no cambia el frame cognitivo primario del agente. Bajo presion operacional, el frame gana.


Que implica para el deployment

Uno: los documentos de governance son necesarios pero insuficientes. Satisfacen requerimientos regulatorios pero no producen resistencia operacional por si solos.

Dos: el diseno del rol es una decision de seguridad. Equipos que enmarcan sus agentes como ejecutores puros estan aceptando una penalidad de resistencia medible.

Tres: la evaluacion pre-deployment tiene que testear el rol bajo presion, no solo la politica en papel.


Limitaciones

N=30. Estadisticamente significativo por Fisher exact test, pero una muestra mas grande revelaria subcategorias. La categorizacion de rol depende del analisis de prompt. El escenario de cost induction fue donde la brecha fue mas amplia.

Compartimos este hallazgo ahora porque los deadlines regulatorios de 2026 (EU AI Act agosto, Colorado AI Act junio) estan empujando a las organizaciones a probar robustez de agentes, y los documentos de governance no van a alcanzar.

Queres saber donde esta tu agente?

Testealo gratis →

Publicado de forma independiente. Detalles de metodologia disponibles a pedido. Resumen del dataset publicado como parte del BotConduct Observatory.