Ir al contenido principal

EnterpriseOps-Gym: Entornos para planificación de agentes con estado en empresas | Benchmarking de agentes IA en operaciones corporativas | Evaluación de uso de herramientas en sistemas empresariales reales

Enterprise AIIA empresarialAgentic Planningplanificación de agentes de estadoTool Use Benchmarkinguso de herramientasSystem Operations

Abstract

PROBLEMA: La evaluación de agentes de IA se realiza frecuentemente en entornos simplificados que no reflejan la complejidad de los sistemas empresariales reales, los cuales requieren gestión de estado a largo plazo e interacciones con herramientas complejas. SOLUCIÓN: ServiceNow AI propone EnterpriseOps-Gym, un conjunto de entornos diseñados específicamente para evaluar la planificación basada en agentes y el uso de herramientas en contextos corporativos de "estado persistente". METODOLOGÍA: El framework simula operaciones de negocio, bases de datos empresariales y sistemas de tickets, obligando a los agentes a manejar dependencias temporales y cambios en el entorno. Evalúan modelos mediante métricas de éxito en tareas multi-paso. RESULTADOS: Los resultados muestran que incluso los modelos de lenguaje más avanzados fallan significativamente en tareas que requieren mantener la consistencia del estado empresarial, subrayando la necesidad de este benchmark. RELEVANCIA: Proporciona el rigor necesario para desplegar agentes autónomos en infraestructuras críticas de IT y operaciones de negocio (AIOps).

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h