9 de marzo de 2026

WorldCache: Aceleración de Modelos de Mundo mediante Caching Heterogéneo de Tokens

World ModelsToken CachingInference AccelerationHeterogeneous CachingTemporal Dynamics

Abstract

WorldCache introduce una técnica pionera de aceleración para Modelos de Mundo denominada 'Heterogeneous Token Caching'. Observando que en las simulaciones de mundo muchos tokens latentes permanecen estáticos o cambian mínimamente entre pasos de tiempo (especialmente en entornos espaciales o físicos), los autores proponen un sistema de caché que reutiliza cómputos previos de tokens redundantes. A diferencia del KV-caching tradicional de los LLM, WorldCache opera sobre la dinámica temporal del modelo de mundo, permitiendo una aceleración de la inferencia de hasta 3x sin pérdida de fidelidad en la predicción. Este avance es crucial para aplicaciones en tiempo real de predicción de colisiones orbitales o navegación robótica, donde la latencia de la simulación suele ser el cuello de botella para la toma de decisiones agénticas.

Leer paper original

Volver a Papers IA