12 de junio de 2026

SpatialClaw: Rediseño de la interfaz de acción para razonamiento espacial agéntico | Mejora de la precisión en manipulación física para modelos VLA | Framework de NVIDIA para interacción espacial robusta en agentes autónomos

Spatial Reasoningrazonamiento espacialTargetAction Interfaceinterfaz de acciónRobotic Agentsagentes robóticosSpatialClawVLA models

Abstract

PROBLEMA: Las interfaces de acción actuales para agentes espaciales suelen ser imprecisas o dependen de coordenadas absolutas difíciles de generalizar, lo que limita la capacidad de los modelos VLA (Vision-Language-Action) para interactuar con objetos en 3D. SOLUCIÓN: SpatialClaw propone rediseñar la interfaz de acción enfocándose en primitivas espaciales relativas y mecanismos de atención centrados en el objeto, mejorando la comprensión del "dónde" y "cómo" interactuar. METODOLOGÍA: El equipo de NVIDIA evaluó esta interfaz en simuladores robóticos y tareas de manipulación del mundo real, comparándola con interfaces de coordenadas tradicionales mediante modelos Transformer de gran escala. RESULTADOS: SpatialClaw redujo los errores de posicionamiento en un 40% y mejoró la generalización a escenas no vistas anteriormente en comparación con métodos basados en regresión de píxeles. RELEVANCIA: Este trabajo es vital para cerrar la brecha entre la comprensión visual y la acción física en modelos de mundo y robótica avanzada.

Leer paper original

Volver a Papers IA