NVIDIA presenta Nemotron 3 Nano Omni: Inteligencia multimodal de contexto largo para agentes de documentos, audio y vídeo
NVIDIA ha introducido Nemotron 3 Nano Omni, un modelo omnimodal de 30B parámetros diseñado para análisis de documentos reales, razonamiento en múltiples imágenes, reconocimiento automático de voz, comprensión de audio y vídeo largos, uso agentico en ordenadores y razonamiento general. Extiende la línea Nemotron con capacidades en texto, imagen, vídeo y audio, logrando los mejores resultados en benchmarks como OCRBenchV2, MMLongBench-Doc, Video-MME y VoiceBench. Ofrece hasta 9 veces mayor rendimiento y es el modelo open-weight más eficiente en comprensión de vídeo. Los checkpoints en BF16, FP8 y NVFP4 están disponibles en Hugging Face, junto con informes técnicos y código de entrenamiento. Este lanzamiento impulsa aplicaciones empresariales en workflows multimodales complejos.