TUA-Bench: Evaluation of General-Purpose Terminal-Use Agents | Benchmark para agentes de IA especialistas en línea de comandos y terminal | Pruebas de rendimiento para asistentes de automatización de sistemas operativos
Abstract
PROBLEMA: Faltan marcos de evaluación estandarizados para agentes que operan directamente en terminales de computadoras, una habilidad esencial para la automatización de TI y el desarrollo de software. SOLUCIÓN: TUA-Bench es un nuevo benchmark integral diseñado específicamente para 'Terminal-Use Agents' (TUA), cubriendo tareas desde manipulación de archivos hasta administración de servidores complejos. METODOLOGÍA: El benchmark incluye 500 tareas diversas divididas en niveles de dificultad, evaluando no solo el éxito de la tarea sino también la seguridad, la eficiencia de los comandos y la capacidad de recuperación ante errores. RESULTADOS: Los modelos actuales de última generación muestran brechas críticas en el razonamiento recursivo y en la gestión de permisos, proporcionando un roadmap claro para la mejora de agentes de infraestructura. RELEVANCIA: Impulsa el desarrollo de agentes capaces de actuar como ingenieros de sistemas o asistentes técnicos autónomos en entornos reales.