deepseek_v3_2_pushing_the_frontier_of_open_large_language_models

DeepSeek-V3.2LLMMixture-of-ExpertsOpen SourceRazonamientoMultilingüeBenchmarks

Abstract

DeepSeek-V3.2 representa la última iteración de los modelos de lenguaje grandes abiertos desarrollados por DeepSeek-AI, superando a competidores cerrados en benchmarks clave como MMLU (92.5% de precisión), HumanEval (89%) y GSM8K (95%). La arquitectura incorpora una Mixture-of-Experts escalada a 405B parámetros con entrenamiento eficiente en datos multilingües de 15T tokens, incluyendo optimizaciones en MoE routing y cuantización post-entrenamiento para inferencia en hardware estándar. El modelo destaca en tareas de razonamiento largo, codificación compleja y generación multilingüe, con una reducción del 40% en latencia respecto a V3.1. Contribuciones incluyen liberación de pesos completos bajo licencia Apache 2.0, facilitando investigación abierta, y demostraciones en aplicaciones reales como asistentes inteligentes y automatización de código. Limitaciones: alto costo computacional de entrenamiento y dependencia de datos curados para evitar sesgos.

Leer paper original

Volver a Papers IA