Ir al contenido principalSaltar al contenido

Aceleración de decodificación especulativa mediante árboles paralelos | Optimización de throughput en LLMs con JetSpec | Rompiendo los límites de velocidad en inferencia de modelos de lenguaje

Speculative Decodingdecodificación especulativa ParkwayParallel Tree Draftinglatencia de inferencia LLMJetSpecLLM optimizationthroughput acceleration

Abstract

PROBLEMA: La decodificación especulativa tradicional está limitada por la verificación secuencial de los tokens propuestos, lo que restringe el techo de aceleración. SOLUCIÓN: Introducen JetSpec, un método que utiliza 'Parallel Tree Drafting' para expandir y verificar múltiples ramas de tokens probables simultáneamente. METODOLOGÍA: Implementan una estructura de árbol dinámica que adapta su profundidad y anchura basándose en la confianza del modelo 'borrador' (draft model), optimizando el uso de la memoria GPU. RESULTADOS: Logran mejoras de velocidad de hasta 3x en comparación con la decodificación autoregresiva estándar y un 40% sobre métodos de especulación previos. RELEVANCIA: Directamente aplicable para reducir costes de cómputo y mejorar la experiencia de usuario en aplicaciones de Chat y agentes en tiempo real.

Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono