13 de marzo de 2026

Spatial-TTT: Inteligencia Espacial en Streaming mediante Entrenamiento en Tiempo de Prueba

Test-Time TrainingSpatial IntelligenceStreaming VisionTTT-LayersVideo Reasoning

Abstract

Spatial-TTT introduce un paradigma de inteligencia espacial basado en el entrenamiento en tiempo de prueba (Test-Time Training) para el procesamiento de flujos de video continuos. A diferencia de los modelos tradicionales que dependen de ventanas de contexto fijas, Spatial-TTT utiliza capas TTT adaptativas que actualizan sus estados internos (pesos) mientras procesan la secuencia, permitiendo una 'memoria' teóricamente infinita y una comprensión dinámica del entorno. El modelo destaca en tareas de razonamiento espacial complejo, como el seguimiento de oclusiones persistentes y la navegación en entornos cambiantes, superando a arquitecturas basadas en Transformers y RNNs estándar en eficiencia y precisión. Es un avance significativo para modelos de mundo que requieren predecir dinámicas en tiempo real sin el coste computacional del re-escaneo de contextos largos.

Leer paper original

Volver a Papers IA