Ir al contenido principal

S2D2: Decodificación rápida para LLMs de difusión mediante auto-especulación | Cómo acelerar modelos de lenguaje de difusión sin reentrenar | Optimización de latencia en la generación de texto no-autoregresiva con S2D2

Diffusion LLMsLLMs de difusiónSelf-Speculationauto-especulaciónInference Accelerationaceleración de inferenciaS2D2

Abstract

PROBLEMA: Los modelos de lenguaje basados en difusión ofrecen ventajas en generación no-autoregresiva, pero suelen ser lentos en la inferencia debido a los múltiples pasos de refinamiento necesarios para producir texto coherente. SOLUCIÓN: El paper introduce S2D2 (Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation), un método que utiliza el propio modelo para predecir pasos futuros de la difusión de forma especulativa, acelerando el proceso sin necesidad de entrenamiento adicional. METODOLOGÍA: Aplican un esquema de "especulación propia" donde versiones más ligeras del proceso de difusión guían al modelo principal, permitiendo saltar pasos redundantes en el espacio latente. RESULTADOS: Logran una aceleración de hasta 3x en la velocidad de generación de tokens manteniendo la calidad semántica y la diversidad de la salida original de difusión. RELEVANCIA: Vital para hacer viables los modelos de difusión de texto en entornos de producción donde la latencia es un factor determinante.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h