Spatial-TTT: Inteligencia Espacial mediante Entrenamiento en Tiempo de Inferencia para Video en Streaming
Abstract
Spatial-TTT introduce un paradigma de entrenamiento en tiempo de inferencia (Test-Time Training) diseñado para dotar a los modelos de una inteligencia espacial adaptativa en flujos de video continuos. A diferencia de los métodos estáticos, este enfoque permite que el modelo refine sus representaciones espaciales a medida que recibe nuevos frames, optimizando la capacidad de comprender la profundidad, la geometría y la persistencia de objetos en entornos dinámicos. El sistema utiliza una arquitectura optimizada para el streaming, lo que reduce la latencia en tareas de navegación y manipulación. Esta investigación es fundamental para el desarrollo de 'World Models' que no solo predicen el siguiente frame, sino que comprenden la estructura tridimensional del entorno de forma persistente, permitiendo una planificación más robusta en robótica y agentes autónomos.