Hugging Face Blog

EVA-Bench Data 2.0: 3 dominios, 121 herramientas, 213 escenarios para evaluar agentes de voz

6 de junio de 2026

ServiceNow AI ha lanzado EVA-Bench Data 2.0, una expansión de su banco de pruebas para agentes de voz. Ahora incluye tres dominios empresariales (Servicio al Cliente en Aerolíneas, Gestión de Servicios de TI y Entrega de Servicios de RRHH en Salud) con 213 escenarios de evaluación y 121 herramientas. El objetivo es ofrecer un conjunto de datos más amplio y realista para evaluar la capacidad de los agentes de voz en entornos empresariales. El proyecto enfatiza el diseño centrado en la voz, el realismo de los escenarios, la variedad de interacciones posibles y la reproducibilidad de los resultados, incluyendo soporte multilingüe en desarrollo. Cada escenario fue validado por modelos de lenguaje avanzados como OpenAI GPT-5.4, Google Gemini 3.1 Pro y Anthropic Claude Opus 4.6.

EVA-Bench Data 2.0agentes de vozevaluación de IAServiceNow AIHugging Facemodelos de lenguajedatos sintéticos

Leer noticia original

Volver a Noticias IA