QIMMA قِمّة: Un leaderboard líder para LLMs en árabe centrado en la calidad
El Technology Innovation Institute ha lanzado QIMMA (قِمّة), un leaderboard para evaluar modelos de lenguaje grandes (LLMs) en árabe que prioriza la validación de calidad de los benchmarks antes de cualquier evaluación de modelos. Han consolidado 109 subconjuntos de 14 benchmarks árabes nativos, abarcando dominios como cultura, STEM, legal, médico, seguridad, poesía y codificación, detectando y corrigiendo problemas sistemáticos en datos existentes. Incluye la primera evaluación de código en árabe y publica outputs detallados para transparencia. Los resultados posicionan a Qwen3.5-397B como líder, destacando que modelos especializados en árabe destacan en tareas culturales y que el tamaño no garantiza el mejor rendimiento.
QIMMAleaderboard árabeLLMs en árabevalidación de calidadTechnology Innovation Institutebenchmarks árabesevaluación de código
Leer noticia original