Ir al contenido principal
Hugging Face

QIMMA قمّة: Un leaderboard líder para LLMs en árabe enfocado en la calidad

El Technology Innovation Institute ha presentado QIMMA قمّة, un leaderboard innovador para evaluar modelos de lenguaje grandes (LLMs) en árabe que prioriza la calidad validando benchmarks antes de las evaluaciones. Consolida 109 subconjuntos de 14 benchmarks nativos árabes, abarcando dominios como cultura, STEM, legal, médico, seguridad, poesía y codificación, con un 99% de contenido en árabe nativo. Identificó problemas sistemáticos en benchmarks existentes, como traducciones defectuosas, errores culturales y falta de validación, descartando muestras de baja calidad mediante un pipeline automatizado y revisión humana. Los resultados destacan modelos como Qwen3.5-397B en cabeza, revelando que la escala no garantiza el mejor rendimiento y la necesidad de evaluaciones rigurosas para árabe.

QIMMAleaderboard árabeLLMs árabesvalidación de benchmarksTechnology Innovation Instituteevaluación de calidadcodificación en árabe
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h