15 de abril de 2026

Acelerando la Decodificación Especulativa con Árboles de Draft de Difusión por Bloques | Técnica avanzada para reducir la latencia de inferencia en LLMs | Uso de modelos de difusión para optimizar la generación de texto en paralelo

Speculative Decoding_ENdecodificación especulativaBlock Diffusioninference accelerationdrafting treeslatencia de inferenciaLLM deployment

Abstract

PROBLEMA: La decodificación especulativa estándar depende de modelos de "draft" pequeños que a menudo no coinciden con la distribución del modelo grande, limitando la aceleración real obtenida en entornos de producción. SOLUCIÓN: El paper presenta "Block Diffusion Draft Trees", un método que utiliza procesos de difusión por bloques para generar múltiples ramificaciones de tokens candidatos de manera simultánea en lugar de una secuencia lineal simple. METODOLOGÍA: Integran un generador de difusión que produce estructuras de árbol de tokens candidatos, los cuales son validados en paralelo por el modelo objetivo, maximizando el número de tokens aceptados por paso de verificación. RESULTADOS: Logran una aceleración de 2x a 3x en la velocidad de inferencia comparado con la decodificación autoregresiva estándar, superando a otros métodos de decodificación especulativa en robustez. RELEVANCIA: Es una técnica crucial para reducir los costos operativos y mejorar la experiencia de usuario en aplicaciones de chat y generación de contenido masivo.

Leer paper original

Volver a Papers IA