9 de junio de 2026

SpatialWorld: Benchmark de razonamiento espacial interactivo para agentes multimodales | Evaluación de la capacidad de acción física en modelos de visión-lenguaje | Pruebas de navegación y manipulación de objetos para IA en entornos 3D

SpatialWorldrazonamiento espacial IA联合agentes multimodalesVLMs evaluacióninteligencia artificial interactivacomprensión de escenas 3D

Abstract

PROBLEMA: Muchos agentes multimodales actuales (VLM) fallan en tareas físicas simples porque carecen de una comprensión verdadera de las relaciones espaciales (arriba, atrás, distancia), limitándose a simples asociaciones visuales. SOLUCIÓN: Se presenta SpatialWorld, un benchmark riguroso que requiere que los agentes interactúen con entornos 3D para resolver tareas que dependen estrictamente de la lógica espacial y la navegación. METODOLOGÍA: El benchmark incluye miles de tareas en simuladores realistas donde el agente debe mover objetos, estimar trayectorias y navegar basándose en instrucciones en lenguaje natural. RESULTADOS: Los resultados revelan que incluso los modelos más potentes (como GPT-4o o Claude 3.5) tienen dificultades significativas para coordinar la percepción visual con la acción espacial en secuencias largas. RELEVANCIA: Este trabajo define las métricas necesarias para llevar a los agentes de IA desde los chats de texto hasta robots capaces de operar en hogares y entornos físicos complejos.

Leer paper original

Volver a Papers IA