AgentVista: Evaluación de Agentes Multimodales en Escenarios Visuales Realistas de Alta Complejidad
Abstract
AgentVista es un nuevo marco de evaluación diseñado específicamente para agentes multimodales operando en escenarios visuales realistas y extremadamente complejos. El estudio identifica que los actuales benchmarks multimodales son a menudo demasiado simplistas o están limitados a descripciones de imágenes aisladas. AgentVista introduce tareas que requieren una secuencia dinámica de acciones visuales, como la navegación en interfaces web complejas, interpretación de diagramas técnicos con ruido y manipulación de objetos en entornos simulados con oclusiones. El paper propone un sistema de puntuación que valora tanto el éxito de la tarea como la eficiencia del razonamiento visual aplicado. Se evalúan varios modelos de lenguaje visual (VLM) de última generación, revelando brechas críticas en la capacidad de los agentes para mantener la coherencia espacial y lógica a lo largo de interacciones prolongadas. Las contribuciones incluyen un conjunto de datos diverso y herramientas de diagnóstico para identificar fallos en la percepción vs. fallos en la planificación agéntica.