Deja de hacer benchmarks en proveedores de inferencia
Nathan Habib argumenta que benchmarkear modelos a través de proveedores de inferencia no evalúa el modelo en sí, sino el proveedor, que puede usar versiones cuantizadas o diferentes. Recomienda usar la definición precisa de Transformers con HF Jobs para ejecutar benchmarks fiables en más de un millón de modelos del Hub. Proporciona un script UV que lanza un servidor compatible con OpenAI API usando Transformers serve y evalúa con inspect-ai en benchmarks como GPQA Diamond. Los resultados se publican automáticamente en un Space de Hugging Face. Esto facilita contribuciones a leaderboards comunitarios mediante PRs en repositorios de modelos.
proveedores de inferenciabenchmarks de modelosTransformersHF Jobsinspect-aiGPQA DiamondHugging Face Hub
Leer noticia original