LMEB: Benchmarking de Embeddings para Memoria de Largo Horizonte y Recuperación en Contextos Extensos
Abstract
Este trabajo presenta LMEB (Long-horizon Memory Embedding Benchmark), un nuevo marco de evaluación diseñado específicamente para medir la capacidad de los modelos de embeddings en la gestión de memoria de largo horizonte. A diferencia de los benchmarks tradicionales que se centran en la similitud semántica de corto alcance, LMEB evalúa cómo los modelos mantienen y recuperan información crítica a través de ventanas de contexto masivas y series temporales extensas. Los autores argumentan que la arquitectura actual de los LLM a menudo falla en la recuperación precisa cuando la densidad de información es baja o cuando los datos relevantes están enterrados en el 'medio' de un documento extenso. El benchmark incluye tareas de razonamiento sobre memoria comprimida y recuperación de hechos específicos en bases de conocimientos dinámicas. Los resultados demuestran una brecha significativa entre los modelos de propósito general y aquellos optimizados para memoria persistente, proporcionando una hoja de ruta para el desarrollo de sistemas de recuperación más robustos en aplicaciones de agentes autónomos que requieren persistencia histórica.