T-MAP: Red-Teaming de agentes LLM mediante búsqueda evolutiva de trayectorias | Descubrimiento de vulnerabilidades en la ejecución secuencial de IA | Evaluación de seguridad avanzada para agentes autónomos con T-MAP
Abstract
PROBLEMA: Los métodos de red-teaming estándar para LLMs se centran en el texto estático, pero los agentes IA fallan de formas únicas durante la ejecución secuencial de tareas (trayectorias). SOLUCIÓN: T-MAP propone un sistema de búsqueda evolutiva que explora el espacio de trayectorias posibles para un agente, identificando secuencias de acciones que llevan a estados peligrosos o no deseados. METODOLOGÍA: Utilizan algoritmos genéticos para mutar las instrucciones y el entorno, maximizando la probabilidad de que el agente se desvíe de su protocolo de seguridad. RESULTADOS: T-MAP descubrió hasta un 40% más de fallos críticos en agentes de codificación y navegación que los ataques basados solo en prompts de texto. RELEVANCIA: Es una herramienta esencial para el despliegue seguro de agentes que tienen capacidad de actuar sobre el sistema operativo o aplicaciones externas.