18 de mayo de 2026

MMSkills: Hacia habilidades multimodales para agentes visuales generales | Framework de evaluación de capacidades tácticas y cognitivas en agentes IA | Cómo medir la inteligencia operativa en modelos de mundo miltimodales

Multimodal SkillsVisual AgentsMMSkillsagentes visualeshabilidades multimodalesmodelos de mundobenchmarking de agentes

Abstract

PROBLEMA: Existe una falta de estandarización en lo que constituye las "habilidades" fundamentales para los agentes visuales, lo que dificulta la progresión hacia agentes generalistas capaces de operar en diversas tareas. SOLUCIÓN: Los autores proponen MMSkills, un framework que descompone las capacidades operativas de los agentes en habilidades multimodales discretas y evaluables. METODOLOGÍA: Utilizan un conjunto diverso de entornos de simulación y tareas del mundo real para categorizar y medir el rendimiento de los agentes en percepción, razonamiento espacial y ejecución de herramientas. RESULTADOS: El estudio demuestra que la mayoría de los agentes actuales carecen de una transferencia de habilidades efectiva entre dominios, identificando cuellos de botella críticos en la integración sensoriomotora. RELEVANCIA: Esta investigación es clave para avanzar desde LLMs estáticos hacia agentes autónomos que comprenden y actúan físicamente en su entorno.

Leer paper original

Volver a Papers IA