EVA-Bench Data 2.0: 3 dominios, 121 herramientas, 213 escenarios
EVA-Bench ha ampliado su conjunto de datos de evaluación de agentes de voz, pasando de un dominio empresarial a tres: Gestión de Servicios al Cliente de Aerolíneas (CSM), Gestión de Servicios de TI Empresariales (ITSM) y Entrega de Servicios de RRHH en Sanidad (HRSD). Esta nueva versión incluye 213 escenarios de evaluación a través de 121 herramientas, cuadruplicando la cobertura de escenarios. Todos los escenarios fueron validados por modelos de frontera como OpenAI GPT-5.4, Google Gemini 3.1 Pro y Anthropic Claude Opus 4.6 para asegurar su dificultad y equidad. Los tres conjuntos de datos están disponibles como código abierto y se pueden descargar para evaluar agentes de voz o construir nuevos conjuntos de datos de evaluación. También se anuncia una extensión multilingüe futura que incluirá soporte para escenarios en otros idiomas además del inglés.