MARS: Habilitando generación multi-token en modelos autorregresivos | Cómo acelerar la inferencia de LLMs generando múltiples palabras simultáneamente | Mejora del rendimiento de decodificación en transformers tradicionales
Abstract
PROBLEMA: La decodificación tradicional de los LLMs es 'token a token', lo que genera cuellos de botella en la velocidad de inferencia debido a la baja utilización del hardware. SOLUCIÓN: MARS introduce un método para que los modelos autorregresivos estándar puedan generar múltiples tokens en un solo paso de forward, sin requerir cambios estructurales masivos. METODOLOGÍA: Utilizan una estrategia de entrenamiento que alinea las representaciones latentes para predecir n-gramas futuros de forma simultánea. RESULTADOS: Se observa una mejora de hasta 2x en la velocidad de generación (throughput) manteniendo una precisión de lenguaje casi idéntica a la decodificación secuencial. RELEVANCIA: Esta técnica es clave para aplicaciones que requieren respuestas instantáneas y para reducir el coste operativo de servir modelos de gran escala.