Ir al contenido principal

Domino: Desacoplamiento de modelado causal en decodificación especulativa | Aceleración de la inferencia en LLMs mediante borradores desacoplados | Optimización de latencia en modelos autorregresivos con el sistema Domino

speculative decodingdecodificación especulativacausal modelingautoregressive draftinginferencia aceleradaLLM optimizationlatencia de modelos

Abstract

PROBLEMA: La decodificación especulativa tradicional suele estar limitada por el acoplamiento rígido entre el modelo que genera el borrador y el modelo principal, lo que reduce la flexibilidad y el potencial de aceleración. SOLUCIÓN: Presentan 'Domino', un método que desacopla el modelado causal del proceso de borrador autorregresivo, optimizando la verificación de tokens. METODOLOGÍA: Utilizan una nueva arquitectura de pipeline que permite al modelo verificador trabajar en paralelo con el generador de borradores basándose en dependencias causales. RESULTADOS: Logran reducciones de latencia de hasta 2.5x en comparación con la decodificación estándar, manteniendo la paridad exacta en la distribución de salida. RELEVANCIA: Es una técnica crítica para reducir costos operativos y mejorar la experiencia de usuario en aplicaciones de chat y generación de código en tiempo real.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h