Hugging Face Blog

EVA-Bench Data 2.0: 3 dominios, 121 herramientas, 213 escenarios

5 de junio de 2026

EVA-Bench ha ampliado su conjunto de datos de evaluación de agentes de voz, pasando de un dominio empresarial a tres: Gestión de Servicios al Cliente de Aerolíneas (CSM), Gestión de Servicios de TI Empresariales (ITSM) y Entrega de Servicios de RRHH en Sanidad (HRSD). Esta nueva versión incluye 213 escenarios de evaluación a través de 121 herramientas, cuadruplicando la cobertura de escenarios. Todos los escenarios fueron validados por modelos de frontera como OpenAI GPT-5.4, Google Gemini 3.1 Pro y Anthropic Claude Opus 4.6 para asegurar su dificultad y equidad. Los tres conjuntos de datos están disponibles como código abierto y se pueden descargar para evaluar agentes de voz o construir nuevos conjuntos de datos de evaluación. También se anuncia una extensión multilingüe futura que incluirá soporte para escenarios en otros idiomas además del inglés.

EVA-Bench Data 2.0agentes de vozevaluación de IAmodelos de lenguajeServiceNow-AIHealthcare HRSDEnterprise ITSM

Leer noticia original

Volver a Noticias IA