30 de junio de 2026

TUA-Bench: Evaluation of General-Purpose Terminal-Use Agents | Benchmark para agentes de IA especialistas en línea de comandos y terminal | Pruebas de rendimiento para asistentes de automatización de sistemas operativos

Terminal Agentsagentes de terminalTUA-Benchbenchmarking IACLI automationautomatización CLIagentic evaluation

Abstract

PROBLEMA: Faltan marcos de evaluación estandarizados para agentes que operan directamente en terminales de computadoras, una habilidad esencial para la automatización de TI y el desarrollo de software. SOLUCIÓN: TUA-Bench es un nuevo benchmark integral diseñado específicamente para 'Terminal-Use Agents' (TUA), cubriendo tareas desde manipulación de archivos hasta administración de servidores complejos. METODOLOGÍA: El benchmark incluye 500 tareas diversas divididas en niveles de dificultad, evaluando no solo el éxito de la tarea sino también la seguridad, la eficiencia de los comandos y la capacidad de recuperación ante errores. RESULTADOS: Los modelos actuales de última generación muestran brechas críticas en el razonamiento recursivo y en la gestión de permisos, proporcionando un roadmap claro para la mejora de agentes de infraestructura. RELEVANCIA: Impulsa el desarrollo de agentes capaces de actuar como ingenieros de sistemas o asistentes técnicos autónomos en entornos reales.

Leer paper original

Volver a Papers IA