Ir al contenido principal
Hugging Face

vLLM V0 a V1: La corrección antes de las correcciones en RL

ServiceNow-AI detalla la migración de vLLM V0 a V1 en su framework PipelineRL para generación de rollouts en entrenamiento RL. Priorizaron restaurar la paridad en logprobs y comportamiento del backend antes de ajustar el objetivo RL, corrigiendo semántica de logprobs, configuraciones por defecto como prefix caching y async scheduling, manejo de actualizaciones de pesos en vuelo, y precisión fp32 en lm_head. Tras estas fixes, métricas como KL, clip rate, entropía y reward coinciden con la referencia V0. El enfoque subraya la importancia de corregir el backend primero para interpretaciones claras del entrenamiento.

vLLMPipelineRLaprendizaje por refuerzologprobsServiceNow-AIinferencialm_head
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h