Hugging Face

ML Intern realiza la prueba de internado en post-entrenamiento de Hugging Face

25 de abril de 2026

Carlos Miguel Patiño ha probado el modelo 'ml-intern' con la misma prueba práctica que los candidatos a becas de post-entrenamiento en Hugging Face. El modelo replica un baseline de Best-of-N con selección ponderada en 20 problemas del dataset MATH-500, usando Qwen2.5-1.5B-Instruct como generador de soluciones y un Process Reward Model (PRM) de Skywork para puntuarlas. Los resultados muestran que el método Weighted Best-of-N alcanza un 65% de precisión, mejorando un 20% sobre el greedy decoding. Se proporcionan código completo, análisis detallado, gráficos y datasets en el Hugging Face Hub. Esta prueba destaca el potencial de técnicas de escalado de compute en tiempo de inferencia con modelos abiertos.

ml-internBest-of-Nselección ponderadaPRMMATH-500Qwen2.5Hugging Face

Leer noticia original

Volver a Noticias IA