WorldMark: Suite de evaluación para modelos de mundo de video interactivo | Cómo medir la inteligencia física y de interacción en modelos de video generativo | Benchmarking de coherencia causal en IAs de generación de video interactivo
Abstract
PROBLEMA: La evaluación de los "modelos de mundo" (world models) de vídeo interactivo carece de estándares unificados que midan tanto la calidad visual como la coherencia física y la respuesta a comandos del usuario. SOLUCIÓN: Presentan WorldMark, una suite de benchmark integral diseñada específicamente para medir la capacidad de interactividad de los modelos de video. Evalúa la respuesta del modelo a instrucciones de control dinámico y su consistencia temporal. METODOLOGÍA: El benchmark incluye múltiples escenarios (driving, manipulation, indoor exploration) y propone métricas de "Fidelidad de Control" y "Consistencia de Estado" bajo la influencia de acciones externas. RESULTADOS: El estudio revela que los modelos actuales son excelentes en realismo visual pero fallan significativamente en mantener leyes físicas consistentes tras múltiples interacciones del usuario. RELEVANCIA: Es una herramienta crítica para avanzar hacia IAs que no solo generen imágenes, sino que comprendan las causas y efectos en un entorno dinámico, esencial para sim-to-real.