Ir al contenido principal
Hugging Face

DeepSeek-V4: un contexto de un millón de tokens que los agentes pueden usar realmente

DeepSeek ha lanzado V4, con dos modelos MoE disponibles en el Hub de Hugging Face: DeepSeek-V4-Pro (1,6 billones de parámetros totales, 49B activos) y DeepSeek-V4-Flash (284B totales, 13B activos), ambos con una ventana de contexto de 1 millón de tokens. Estos modelos están diseñados para tareas agenticas, resolviendo problemas de KV cache y atención en contextos largos mediante atención híbrida (CSA y HCA) que reduce el uso de memoria y FLOPs. Incluyen mejoras como preservación de razonamiento interleavado en llamadas a herramientas y un esquema XML con token especial para tool calls. Los benchmarks destacan en tareas agenticas como Terminal Bench (67,9%) y SWE Verified (80,6%), compitiendo con modelos frontier cerrados. Esta innovación facilita el despliegue eficiente para agentes de largo horizonte.

DeepSeek-V4DeepSeek-V4-ProDeepSeek-V4-Flashcontexto largoagentes IAatención híbridaMoE
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h