JetSpec: Rompiendo el techo de la decodificación especulativa mediante árboles paralelos | Inferencia de LLMs de ultra alta velocidad | Optimización del rendimiento de generación de texto en arquitecturas transformes mediante validación paralela de tokens
Abstract
PROBLEMA: La decodificación especulativa estándar a menudo se ve limitada por la capacidad de producir candidatos de calidad, lo que frena el potencial máximo de aceleración en la inferencia de LLMs. SOLUCIÓN: JetSpec introduce un método de 'Parallel Tree Drafting' que utiliza una estructura de árbol multirrama para generar y verificar múltiples tokens candidatos en paralelo, maximizando el aprovechamiento del hardware. METODOLOGÍA: Utilizan un modelo borrador (draft model) alternativo que genera ramas de tokens potenciales, las cuales se validan simultáneamente en el modelo grande (target model) mediante máscaras de atención especializadas. RESULTADOS: Logran una aceleración de 3.5 a 5 veces con respecto a la inferencia autorregresiva estándar, superando significativamente a otros métodos de decodificación especulativa lineal. RELEVANCIA: Esta técnica es crítica para reducir los costos operativos y la latencia en servicios de IA a gran escala que utilizan modelos de parámetros masivos.