Ir al contenido principal
Hugging Face

ArmBench-LLM 1.0: Evaluando modelos de lenguaje grandes en tareas del idioma armenio

Metric AI Lab ha lanzado ArmBench-LLM 1.0, un benchmark ampliado para evaluar el rendimiento de modelos de lenguaje grandes (LLMs) en diversas tareas del idioma armenio, como clasificación de texto, preguntas de opción múltiple, corrección gramatical, resumen, traducción y comprensión lectora. Esta versión incluye pruebas legacy y evalúa modelos propietarios y open-source, con Gemini 3 Flash liderando el leaderboard con 0.6350 puntos, superando a opciones más costosas. Los modelos open-source como Qwen3.5-27B destacan por su competitividad. Se proporcionan insights sobre costes, eficiencia y rendimiento en subtareas específicas, subrayando la necesidad de benchmarks lingüísticos específicos. El dataset y el leaderboard están disponibles abiertamente.

ArmBench-LLMidioma armeniomodelos de lenguajebenchmarkGemini 3Metric AI Labevaluación LLM
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h