Benchmark para Modelos de Mundo Interactivos con Framework Unificado | Evaluación de la interacción acción-entorno en modelos de IA | Cómo medir la inteligencia física en modelos de mundo generativos
Abstract
PROBLEMA: Los modelos de mundo actuales a menudo carecen de una forma estandarizada de evaluar su capacidad para generar acciones coherentes y predecir las consecuencias físicas de tales acciones en entornos diversos. SOLUCIÓN: Este trabajo propone un benchmark integral y un framework de generación de acciones unificado diseñado para probar la interactividad y fidelidad de los modelos de mundo. METODOLOGÍA: Se definen métricas de precisión física, causalidad de acción-efecto y coherencia temporal en múltiples dominios de simulación. RESULTADOS: Los experimentos revelan brechas significativas en la comprensión causal de los modelos de video actuales, proporcionando una hoja de ruta para futuras mejoras en razonamiento espacial y dinámico. RELEVANCIA: Crucial para el desarrollo de agentes que operen en el mundo real o en simulaciones complejas (como robótica o dinámica espacial), donde entender el efecto de una acción es vital.