26 de junio de 2026

Aceleración de decodificación especulativa mediante árboles paralelos | Optimización de throughput en LLMs con JetSpec | Rompiendo los límites de velocidad en inferencia de modelos de lenguaje

Speculative Decodingdecodificación especulativa ParkwayParallel Tree Draftinglatencia de inferencia LLMJetSpecLLM optimizationthroughput acceleration

Abstract

PROBLEMA: La decodificación especulativa tradicional está limitada por la verificación secuencial de los tokens propuestos, lo que restringe el techo de aceleración. SOLUCIÓN: Introducen JetSpec, un método que utiliza 'Parallel Tree Drafting' para expandir y verificar múltiples ramas de tokens probables simultáneamente. METODOLOGÍA: Implementan una estructura de árbol dinámica que adapta su profundidad y anchura basándose en la confianza del modelo 'borrador' (draft model), optimizando el uso de la memoria GPU. RESULTADOS: Logran mejoras de velocidad de hasta 3x en comparación con la decodificación autoregresiva estándar y un 40% sobre métodos de especulación previos. RELEVANCIA: Directamente aplicable para reducir costes de cómputo y mejorar la experiencia de usuario en aplicaciones de Chat y agentes en tiempo real.

Leer paper original

Volver a Papers IA