NVIDIA: DFlash block diffusion acelera los LLM autorregresivos
NVIDIA ha implementado DFlash block diffusion para acelerar los Modelos de Lenguaje Grandes (LLM) autorregresivos durante la inferencia, especialmente en escenarios sensibles a la latencia. Esta tecnología de código abierto, desarrollada por el equipo de investigación de NVIDIA, reemplaza los modelos de borrador autorregresivos con un modelo de difusión por bloques ligero que predice tokens futuros en un solo pase. Las pruebas en hardware NVIDIA DGX B300 y Blackwell muestran que DFlash aumenta el rendimiento hasta 15 veces en comparación con la decodificación autorregresiva estándar. Su integración en vLLM y SGLang demuestra mejoras significativas en la interactividad y la velocidad de procesamiento para diversas tareas de IA.
NVIDIADFlashBlock DiffusionLLMModelos de LenguajeInferenciaDecodificación Especulativa
Leer noticia original