BlockPilot: Decodificación especulativa adaptativa mediante difusión | Optimización de la velocidad de inferencia en LLMs según el contexto | Política dinámica para acelerar modelos de lenguaje grandes
Abstract
PROBLEMA: La decodificación especulativa tradicional suele ser rígida y no se adapta bien a la variabilidad de las muestras, lo que limita las ganancias de velocidad en la inferencia de LLMs. SOLUCIÓN: Se propone BlockPilot, un método de aprendizaje de políticas adaptativas por instancia para la decodificación especulativa basada en difusión. METODOLOGÍA: Implementa una política que selecciona dinámicamente el tamaño del bloque y la estrategia de verificación según la dificultad del token, utilizando un optimizador basado en difusión para refinar las predicciones. RESULTADOS: Logra una aceleración de hasta 2.5x sobre los métodos de decodificación estándar sin pérdida de precisión en la salida. RELEVANCIA: Crucial para el despliegue comercial de modelos de IA donde el costo de cómputo y la latencia son barreras críticas para la experiencia del usuario.