MultiWorld: Modelos de mundo escalables multi-agente y multi-vista | Generación de video coherente para simulación compartida de agentes | Entornos de simulación visual para coordinación de múltiples robots
Abstract
PROBLEMA: La mayoría de los modelos de mundo se centran en un solo agente o una sola perspectiva, lo que limita su utilidad en escenarios complejos donde múltiples actores deben interactuar con vistas compartidas. SOLUCIÓN: MultiWorld introduce un marco de trabajo para generar modelos de mundo consistentes que soportan múltiples agentes y múltiples cámaras de video de forma simultánea. METODOLOGÍA: Utilizan una arquitectura de difusión latente que mantiene la coherencia temporal y espacial a través de diferentes flujos de datos visuales, asegurando que todos los agentes 'vean' el mismo mundo desde sus ángulos respectivos. RESULTADOS: El sistema muestra una mejora notable en la coherencia geométrica y de identidad de objetos en simulaciones de tráfico y robótica colaborativa. RELEVANCIA: Vital para el entrenamiento de sistemas colectivos, desde flotas de drones hasta coordinación de robots industriales en almacenes.