Hugging Face

olmo-eval: Un entorno de trabajo de evaluación para el ciclo de desarrollo de modelos

14 de junio de 2026

Allen Institute for AI (AI2) lanza olmo-eval, un nuevo entorno de trabajo que extiende el estándar OLMES para la evaluación de LLM, facilitando el desarrollo continuo de modelos. A diferencia de otras herramientas, olmo-eval se centra en el ciclo de desarrollo, permitiendo añadir y configurar benchmarks, ejecutar pruebas en diferentes checkpoints y analizar resultados detallados. Ofrece flexibilidad en la ejecución de evaluaciones, desde pruebas rápidas hasta entornos en contenedores, y proporciona herramientas de análisis avanzadas para identificar mejoras reales frente al ruido. Su arquitectura modular permite intercambiar componentes como modelos, herramientas y entornos de ejecución, haciendo las evaluaciones más reproducibles y adaptables a las necesidades del desarrollo.

olmo-evalLLMevaluaciónAllen AIOLMESbenchmarkingdesarrollo de modelosinteligencia artificial

Leer noticia original

Volver a Noticias IA