TerminalWorld: Evaluación de Agentes en Tareas de Terminal del Mundo Real | Benchmark de capacidad operativa de IA en entornos CLI y administración de sistemas | Pruebas de resistencia y eficacia para agentes autónomos en flujos de trabajo técnicos reales
Abstract
PROBLEMA: La mayoría de los benchmarks actuales para agentes se limitan a entornos sintéticos o tareas de preguntas y respuestas que no reflejan la complejidad de usar una interfaz de línea de comandos (CLI) real, donde hay errores de sintaxis, dependencias de archivos y estados del sistema volátiles. SOLUCIÓN: Los autores presentan TerminalWorld, un benchmark riguroso que evalúa a los agentes en tareas de terminal del mundo real, incluyendo administración de sistemas, depuración de código y orquestación de servicios en servidores reales controlados. METODOLOGÍA: El dataset incluye más de 500 tareas con criterios de éxito verificables mediante scripts de comprobación. Evalúan modelos de última generación (GPT-4, Claude 3.5, etc.) en su capacidad para manejar la interactividad de la terminal. RESULTADOS: Los resultados revelan una brecha significativa: incluso los mejores modelos fallan en más del 40% de las tareas debido a la incapacidad de recuperarse de errores de sistema inesperados o por la falta de una comprensión profunda de la jerarquía de archivos. RELEVANCIA: TerminalWorld establece un nuevo estándar de "veracidad operativa" para agentes desarrollados para automatizar flujos de trabajo de ingeniería de software y operaciones de TI.