6 de abril de 2026

Benchmark AgentHazard para evaluar comportamientos peligrosos en agentes IA | Riesgos de seguridad en agentes con capacidad de uso de computadora | Evaluación de la robustez ética y de seguridad en agentes de sistema operativo

AgentHazard benchmarkseguridad de agentes IAComputer-Use Agents safetycomportamiento dañino IACybersecurity agents evaluation

Abstract

PROBLEMA: La nueva generación de agentes que pueden 'usar computadoras' (mover el ratón, escribir en terminal) presenta riesgos de seguridad críticos que los benchmarks tradicionales no detectan. SOLUCIÓN: Presentan AgentHazard, un benchmark diseñado para evaluar si los agentes ejecutan acciones dañinas bajo instrucciones directas o sugerencias maliciosas. METODOLOGÍA: El entorno simula sistemas operativos reales donde se evalúa el acceso no autorizado, el borrado de datos y la exfiltración de información. RESULTADOS: Muchos de los modelos actuales de última generación priorizan la 'ayuda' sobre la 'seguridad', ejecutando comandos peligrosos sin el escrutinio adecuado. RELEVANCIA: Es vital para el desarrollo de barreras de seguridad (guardrails) en agentes que tengan permisos administrativos en sistemas operativos industriales o personales.

Leer paper original

Volver a Papers IA