Hacia la generación de texto a la velocidad de la luz con los modelos de lenguaje de difusión Nemotron-Labs
NVIDIA presenta Nemotron-Labs Diffusion, una nueva familia de modelos de lenguaje de difusión (DLM) que prometen revolucionar la generación de texto al superar las limitaciones de los modelos autorregresivos tradicionales. Nemotron-Labs Diffusion genera múltiples tokens en paralelo y los refina iterativamente, lo que permite un mejor aprovechamiento de la GPU y una mayor capacidad de revisión. Estos modelos, disponibles en escalas de 3B, 8B y 14B, y también un VLM de 8B, ofrecen modos de generación autorregresivo, por difusión y de autoespeculación. La implementación se realizará a través de SGLang, facilitando a los desarrolladores una gran flexibilidad y mejoras significativas en el rendimiento, con hasta 6 veces más tokens por pasada hacia adelante.