El artículo 'Trampas para Agentes de IA' de Deepmind traza cómo los hackers podrían usar agentes de IA contra los usuarios

Investigadores de Google Deepmind publicaron el primer marco sistemático que cataloga cómo contenido web malicioso puede manipular, secuestrar y convertir en armas a agentes de IA autónomos contra sus propios usuarios. El artículo identifica 6 categorías de trampas para agentes de IA, con tasas de éxito de inyección de contenido que alcanzan el 86%.
Las Trampas de Inyección de Contenido explotan la brecha entre lo que un humano ve en una página web y lo que un agente de IA analiza en el HTML subyacente. Instrucciones ocultas en comentarios HTML o texto invisible nunca aparecen para revisores humanos, pero se registran como comandos legítimos para los agentes.
Las Trampas de Control Conductual apuntan directamente a la capa de acción de un agente. Incluyen secuencias de jailbreak integradas y comandos de exfiltración de datos que redirigen información sensible a endpoints controlados por atacantes. En un caso documentado, un solo correo electrónico manipulado hizo que Microsoft M365 Copilot filtrara su contexto privilegiado completo.
Las Trampas de Estado Cognitivo envenenan las bases de datos de recuperación que los agentes usan para la memoria. Inyectar menos de un puñado de documentos optimizados puede redirigir respuestas de agentes de manera confiable, con tasas de éxito de ataque que superan el 80% con menos del 0.1% de contaminación de datos.
Los investigadores de Deepmind piden una respuesta coordinada que abarque entrenamiento adversarial, escáneres de contenido en tiempo de ejecución y nuevos estándares web. Argumentan que los riesgos son sistémicos, ya que cada agente probado en varios estudios fue comprometido al menos una vez.
Relacionados

Ruanda prohíbe la plataforma P2P de Bybit que ofrecía trading de franco a cripto
6 de abril de 2026
Japón reconoce más de 100 tokens de criptomonedas en 28 plataformas mientras la regulación da forma a la expansión del mercado
6 de abril de 2026