Ir al contenido principal
Hugging Face

Deja de hacer benchmarks con proveedores de inferencia

Nathan Habib critica el uso de proveedores de inferencia como OpenRouter o HF para benchmarks de modelos de IA, ya que estos evalúan el proveedor en lugar del modelo real, que podría estar cuantizado o modificado. Propone utilizar directamente Transformers para definir y evaluar los modelos de manera fiable mediante HF Jobs, que proporciona cómputo bajo demanda. Incluye un script UV completo que lanza un servidor compatible con OpenAI API, ejecuta evaluaciones como GPQA Diamond con inspect-ai y publica los resultados en el hub de Hugging Face. Esto permite benchmarks estandarizados en más de un millón de modelos y contribuciones a leaderboards comunitarios.

proveedores de inferenciabenchmarks de modelosTransformersHF Jobsinspect-aiGPQA DiamondHugging Face
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h