Developer Tech News

NVIDIA: DFlash block diffusion acelera los LLM autorregresivos

26 de junio de 2026

NVIDIA ha implementado DFlash block diffusion para acelerar los Modelos de Lenguaje Grandes (LLM) autorregresivos durante la inferencia, especialmente en escenarios sensibles a la latencia. Esta tecnología de código abierto, desarrollada por el equipo de investigación de NVIDIA, reemplaza los modelos de borrador autorregresivos con un modelo de difusión por bloques ligero que predice tokens futuros en un solo pase. Las pruebas en hardware NVIDIA DGX B300 y Blackwell muestran que DFlash aumenta el rendimiento hasta 15 veces en comparación con la decodificación autorregresiva estándar. Su integración en vLLM y SGLang demuestra mejoras significativas en la interactividad y la velocidad de procesamiento para diversas tareas de IA.

NVIDIADFlashBlock DiffusionLLMModelos de LenguajeInferenciaDecodificación Especulativa

Leer noticia original

Volver a Noticias IA