Ir al contenido principal
Hugging Face

Construyendo entornos SWE de horizonte largo en Hugging Face: Frontier SWE × OpenEnv

El equipo ha empaquetado y adaptado cuatro tareas de FrontierSWE como servicios OpenEnv dockerizados, publicados en Hugging Face Spaces, con una API Gym-style compartida y herramientas MCP para planificación y envío de subtareas. Se ha creado un adaptador de arnés personalizado y una rúbrica multicapa que incluye verificaciones L1 específicas de tareas y recompensas de episodio. Han desarrollado un pipeline de entrenamiento offline que recopila trayectorias, aplica puntuación hindsight con SGLang, genera datasets HCAPO-style y realiza fine-tuning LoRA en un Space GPU, monitorizado con Trackio para visualizar curvas de pérdida y métricas de optimización. Esta configuración permite entornos repetibles y desafiantes para agentes en tareas de ingeniería de software de largo horizonte.

FrontierSWEOpenEnvHugging FaceSWEentornos de largo horizonteRL offlineTrackio
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h