6 de abril de 2026

Evaluación de capacidades agénticas en inteligencia multimodal | Impacto real de la proactividad en modelos de visión y lenguaje | Agentic-MME: un benchmark para agentes multimodales autónomos

Agentic AIagentes multimodalesMultimodal Intelligenceinteligencia multimodal agénticaAgentic-MME benchmarktoma de decisiones IA

Abstract

PROBLEMA: No está claro hasta qué punto las habilidades 'agénticas' (como la planificación y el uso de herramientas) mejoran realmente el rendimiento de los modelos multimodales en comparación con el razonamiento estático. SOLUCIÓN: Introducen Agentic-MME, un marco de evaluación diseñado específicamente para medir el impacto de la autonomía y el razonamiento proactivo en tareas visuales. METODOLOGÍA: Comparan modelos en entornos que requieren navegación, manipulación de objetos virtuales y razonamiento en varios pasos basándose en entradas visuales dinámicas. RESULTADOS: Identifican una brecha significativa donde el 'comportamiento agéntico' permite resolver problemas de razonamiento espacial complejo que los modelos pasivos fallan constantemente. RELEVANCIA: Ayuda a cuantificar la evolución de los MLLMs hacia asistentes autonómomos capaces de actuar en entornos digitales.

Leer paper original

Volver a Papers IA