23 de marzo de 2026

BEAVER: A Training-Free Hierarchical Prompt Compression Method | Compresión jerárquica de prompts para eficiencia en LLMs | Método BEAVER para optimización de tokens en entradas de modelos de lenguaje sin entrenamiento adicional

Prompt Compressioncompresión de promptsHierarchical Selectionselección jerárquicaToken Optimizationoptimización de tokens RAGBEAVER methodLLM efficiency

Abstract

PROBLEMA: Los prompts largos, especialmente en sistemas RAG, consumen una cantidad excesiva de tokens y latencia, pero los métodos de compresión actuales a menudo eliminan detalles estructurales clave. SOLUCIÓN: BEAVER es un nuevo método de compresión de prompts jerárquico y libre de entrenamiento que utiliza la selección de páginas basada en estructura para preservar la semántica global. METODOLOGÍA: El sistema analiza la importancia de diferentes 'páginas' de contexto utilizando métricas de atención y entropía, seleccionando solo los fragmentos que maximizan la relevancia para la consulta del usuario. RESULTADOS: BEAVER logra tasas de compresión de hasta 8x manteniendo el 98% de la precisión en la recuperación de información, siendo significativamente más rápido que los métodos basados en redes neuronales. RELEVANCIA: Es una herramienta esencial para reducir costos y latencia en sistemas RAG de producción que manejan documentos extensos.

Leer paper original

Volver a Papers IA