VIA-SD: Decodificación especulativa mediante ruteo intra-modelo | Cómo acelerar LLMs sin necesidad de modelos auxiliares | Técnica de eficiencia en inferencia basada en salidas tempranas del transformer
Abstract
PROBLEMA: El Speculative Decoding tradicional requiere un "modelo borrador" (draft model) pequeño, lo que añade complejidad al despliegue y problemas de compatibilidad de distribución de tokens. SOLUCIÓN: Se propone VIA-SD, una técnica de Verificación mediante Ruteo Intra-Modelo que permite realizar decodificación especulativa utilizando componentes internos del propio modelo principal. METODOLOGÍA: Utilizan rutas de computación ligeras (early exits) dentro de las capas del transformer para predecir múltiples tokens futuros, que luego son validados por el paso completo del modelo. RESULTADOS: Logran aceleraciones de 1.5x a 2.3x en la velocidad de generación sin necesidad de entrenar o mantener un segundo modelo externo. RELEVANCIA: Simplifica drásticamente la infraestructura de despliegue para LLMs rápidos, eliminando la necesidad de modelos auxiliares y optimizando el uso de la memoria de video.