WorldReasonBench: Evaluación del razonamiento físico en generadores de vídeo | Cómo medir si una IA comprende las leyes de la física en simulaciones visuales | Benchmark para validar modelos de vídeo como simuladores confiables del mundo real
Abstract
PROBLEMA: Los generadores de vídeo actuales son visualmente impresionantes pero carecen de una evaluación rigurosa sobre si realmente comprenden las leyes físicas y las relaciones causales (razonamiento del mundo). SOLUCIÓN: Este trabajo presenta WorldReasonBench, un benchmark de estrés alineado con humanos diseñado para evaluar rigurosamente a los modelos de vídeo como predictores del estado futuro del mundo. METODOLOGÍA: El conjunto de datos incluye escenarios que desafían la gravedad, la permanencia de objetos y la causalidad motriz, requiriendo que el modelo prediga continuaciones lógicas en lugar de solo estéticamente agradables. RESULTADOS: Los resultados revelan una brecha significativa entre la calidad visual y el razonamiento físico en modelos líderes (como Sora o Gen-3), destacando debilidades en la consistencia temporal profunda. RELEVANCIA: Es una herramienta esencial para investigadores que buscan transformar generadores de vídeo en verdaderos simuladores de mundos para entrenamiento de robots o simulación de sistemas complejos.