Ir al contenido principalSaltar al contenido
Hugging Face Blog

Ejecuta un servidor vLLM en Hugging Face Jobs con un solo comando

Hugging Face Jobs permite desplegar un endpoint privado compatible con OpenAI para modelos de lenguaje grandes (LLM) con un solo comando, eliminando la necesidad de provisionar servidores o configurar Kubernetes. Este servicio se factura por segundo y es ideal para pruebas, evaluaciones o generación por lotes. La flexibilidad de HF Jobs contrasta con la gestión de Inference Endpoints, más adecuada para servicios de producción a largo plazo. La noticia detalla los requisitos, el lanzamiento del servidor, cómo consultarlo desde cualquier lugar, la limpieza, el escalado a modelos más grandes integrando Gradio y el soporte SSH para depuración.

vLLMHugging Face Jobsservidor LLMOpenAI APIdespliegue de modelosGPUQwen3-4B
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono