15 de marzo de 2026

Spatial-TTT: Inteligencia Espacial en Streaming mediante Entrenamiento en Tiempo de Inferencia (TTT)

Test-Time TrainingSpatial IntelligenceStreaming VisionWorld ModelsTest-Time Training Layers

Abstract

Spatial-TTT introduce un avance significativo en la inteligencia espacial basada en visión mediante el uso de Test-Time Training (TTT) para el procesamiento de flujos de video continuos. A diferencia de las arquitecturas tradicionales que dependen de una memoria de contexto fija, este método reemplaza los estados ocultos recurrentes o la atención de contexto con capas TTT que aprenden y se adaptan durante la inferencia. El modelo está diseñado para mantener una representación coherente del entorno dinámico en 3D, permitiendo una comprensión espacial superior en tareas de navegación y manipulación. La arquitectura permite que el modelo 'entrene' sus pesos internos con cada nuevo frame recibido, optimizando la capacidad de recuperación de información espacial y la predicción de cambios en la escena sin el coste computacional prohibitivo de las ventanas de atención masivas. Este enfoque es crucial para sistemas que operan en entornos del mundo real donde la dinámica cambia constantemente y se requiere una adaptación en línea inmediata.

Leer paper original

Volver a Papers IA