ML Intern realiza la prueba de internado en post-entrenamiento de Hugging Face
Carlos Miguel Patiño ha probado el modelo 'ml-intern' con la misma prueba práctica que los candidatos a becas de post-entrenamiento en Hugging Face. El modelo replica un baseline de Best-of-N con selección ponderada en 20 problemas del dataset MATH-500, usando Qwen2.5-1.5B-Instruct como generador de soluciones y un Process Reward Model (PRM) de Skywork para puntuarlas. Los resultados muestran que el método Weighted Best-of-N alcanza un 65% de precisión, mejorando un 20% sobre el greedy decoding. Se proporcionan código completo, análisis detallado, gráficos y datasets en el Hugging Face Hub. Esta prueba destaca el potencial de técnicas de escalado de compute en tiempo de inferencia con modelos abiertos.
ml-internBest-of-Nselección ponderadaPRMMATH-500Qwen2.5Hugging Face
Leer noticia original