10 de junio de 2026

WorldOlympiad: Benchmark de alta exigencia para evaluar modelos de mundo | Evaluación de la comprensión física y causal en IAs avanzadas | ¿Puede tu modelo de mundo sobrevivir a un triatlón de razonamiento espacial y físico?

WorldOlympiadmodelos de mundoworld models benchmarkrazonamiento físico IAevaluación multimodalconsistencia espacialpredicción dinámica

Abstract

PROBLEMA: No existen estándares claros para evaluar si un "modelo de mundo" realmente comprende la causalidad, la física y la permanencia de objetos, o si solo imita texturas visuales. SOLUCIÓN: Se presenta WorldOlympiad, un benchmark integral diseñado para estresar modelos de mundo a través de tres dimensiones críticas (el "triatlón"): consistencia física, razonamiento causal y navegación espacial. METODOLOGÍA: El benchmark utiliza una mezcla de entornos simulados y desafíos de razonamiento que requieren que el modelo prediga estados futuros basados en leyes físicas fundamentales. RESULTADOS: Los modelos actuales de SOTA muestran debilidades sorprendentes en tareas de conservación de masa y trayectorias, subrayando que todavía están lejos de ser modelos de mundo verdaderos. RELEVANCIA: Este benchmark servirá como el nuevo estándar para validar modelos que pretendan usarse en robótica y simulaciones críticas de dinámica espacial.

Leer paper original

Volver a Papers IA