NVIDIA: La difusión de bloques DFlash acelera los LLM autorregresivos
NVIDIA ha anunciado DFlash, un modelo de difusión de bloques de fuente abierta que mejora significativamente el rendimiento de los modelos de lenguaje grandes (LLM) autorregresivos durante la inferencia sensible a la latencia. DFlash reemplaza los borradores autorregresivos con una arquitectura de difusión de bloques que predice múltiples tokens futuros en una sola pasada, superando las limitaciones de los métodos tradicionales y aprovechando al máximo la arquitectura Blackwell Ultra de NVIDIA. Esto permite un aumento de hasta 15 veces en el rendimiento en comparación con la descodificación autorregresiva estándar y mejoras de hasta 2,6 veces sobre EAGLE-3 en diversas tareas de codificación y generación. DFlash está integrado en marcos como vLLM, SGLang y TensorRT-LLM, con 20 puntos de control de modelo disponibles en Hugging Face.