Cómo los filtros de seguridad de agentes IA pueden convertirse en armas DDoS

Un grupo de investigadores de la Universidad de Hong Kong ha puesto en evidencia una vulnerabilidad que atraviesa la lógica de los guardrails de los agentes de inteligencia artificial. La técnica consiste en enviar un documento especialmente preparado que, al ser procesado por el mecanismo de razonamiento del guardrail, agota los recursos de cómputo compartidos y provoca un efecto de denegación de servicio (DoS). En la práctica, basta con un solo archivo contaminado para congestionar la infraestructura que protege a varios agentes simultáneamente, dejando sin recursos a los procesos que dependen de ellos.

Para validar la hipótesis, los científicos probaron la metodología en cuatro plataformas de agentes IA muy usadas: LangGraph, BrowserGym, OpenHands y OSWorld. Los resultados mostraron un aumento alarmante en los tiempos de respuesta. LangGraph sufrió una degradación de 148 veces, BrowserGym de 131 veces, OpenHands de 36,3 veces y OSWorld de 18 veces. La prueba se extendió a ocho familias distintas de grandes modelos de lenguaje (LLM) y los prompts diseñados para un modelo de código abierto resultaron igualmente efectivos contra los demás, lo que indica que un atacante no necesita conocer a fondo cada sistema propietario.

Esta forma de ataque difiere de las más conocidas, como el "jailbreak" o la inyección de prompts, que buscan manipular la salida del modelo o eludir controles. En lugar de comprometer la integridad de la respuesta, la amenaza se dirige al proceso de razonamiento que respalda los guardrails, con el objetivo de reducir la disponibilidad. Los investigadores subrayaron que cuanto más complejo y exhaustivo sea el razonamiento del guardrail, mayor será el consumo de tiempo y recursos, creando una puerta de entrada involuntaria para ataques DoS.

Los análisis también dejaron en claro que los filtros tradicionales contra la inyección de prompts siguen siendo vulnerables bajo este esquema. Limitar la cantidad de tokens o reducir el presupuesto de razonamiento ayuda a disminuir la latencia, pero a costa de debilitar la capacidad de filtrado de contenido dañino. Además, los modelos de razonamiento más grandes, que deberían ofrecer mayor robustez, terminaron gastando más tiempo siguiendo la lógica insertada por el atacante, amplificando el efecto de la denegación de servicio.

En el contexto empresarial, la consecuencia directa es la potencial interrupción de flujos críticos como la tramitación automática de reclamaciones, la respuesta asistida a incidentes o la detección de fraudes en tiempo real. Una latencia prolongada o una saturación momentánea del sistema pueden traducirse en pérdidas financieras, daño reputacional y, en sectores regulados, incumplimiento de normas de servicio.

Los expertos en ciberseguridad destacan que la cuestión no es solo si la técnica "guardrail DoS" escalará a gran escala, sino que revela la creciente dependencia de una infraestructura de gobernanza de IA centralizada. A medida que más organizaciones consolidan sus agentes en una capa de seguridad compartida, se crea un punto único de falla. Una única saturación puede inutilizar varios procesos al mismo tiempo, sin necesidad de vulnerar directamente el código de cada agente.

Para mitigar el riesgo, se sugiere desacoplar la infraestructura de protección de los recursos informáticos que alimentan a los agentes y adoptar controles multi‑capa o asíncronos cuando sea viable. Monitorear la profundidad y el tiempo de razonamiento puede servir como señal de alerta temprana de un posible ataque. Además, se recomienda someter los sistemas de guardrails a pruebas de "red teaming" enfocadas en la disponibilidad, no solo en la generación de respuestas peligrosas.

A largo plazo, la tendencia apunta a una mayor complejidad de los entornos multi‑agente, con riesgos emergentes como la deriva de comportamiento y acciones destructivas. Gartner prevé que, para 2029, más del 50 % de los incidentes exitosos contra agentes IA explotarán fallas de control de acceso mediante inyección de prompts, mientras que en 2028 la mayor parte de las transacciones no autorizadas serán producto de violaciones de políticas internas más que de ataques externos. La recomendación final para los directivos es tratar la arquitectura de gobernanza de IA con la misma rigurosidad que se aplica a cualquier infraestructura crítica de negocio, pues la diferencia entre una caída temporal y una interrupción prolongada puede marcar la diferencia entre mantener la competitividad o enfrentar consecuencias graves.

Elvyn Peguero

También te puede interesar

Eco‑digitalismo: la ilusión verde que la IA está vendiendo

Microsoft controla la IA generativa en China: ¿beneficio o riesgo para la soberanía?

Soberanía digital europea: por qué OVHcloud debe liderar la IA local