Ir al contenido principalSaltar al contenido
Developer Tech News

NVIDIA: La difusión de bloques DFlash acelera los LLM autorregresivos

NVIDIA ha anunciado DFlash, un modelo de difusión de bloques de fuente abierta que mejora significativamente el rendimiento de los modelos de lenguaje grandes (LLM) autorregresivos durante la inferencia sensible a la latencia. DFlash reemplaza los borradores autorregresivos con una arquitectura de difusión de bloques que predice múltiples tokens futuros en una sola pasada, superando las limitaciones de los métodos tradicionales y aprovechando al máximo la arquitectura Blackwell Ultra de NVIDIA. Esto permite un aumento de hasta 15 veces en el rendimiento en comparación con la descodificación autorregresiva estándar y mejoras de hasta 2,6 veces sobre EAGLE-3 en diversas tareas de codificación y generación. DFlash está integrado en marcos como vLLM, SGLang y TensorRT-LLM, con 20 puntos de control de modelo disponibles en Hugging Face.

NVIDIADFlashLLMmodelos de lenguajeIAinferenciadecodificación especulativa
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono