ITBench-AA: los modelos frontera obtienen menos del 50% en el primer test comparativo para tareas empresariales de TI agénticas
Artificial Analysis e IBM han lanzado ITBench-AA, el primer banco de pruebas diseñado para evaluar modelos de IA en tareas agénticas de TI empresarial, comenzando con tareas de Ingeniería de Fiabilidad del Sitio (SRE). Los modelos frontera obtienen menos del 50% en estas pruebas, destacando áreas de mejora en la respuesta a incidentes de Kubernetes. Claude Opus 4.7 lidera con un 47%, seguido por GPT-5.5 (xhigh) con un 46%. Los resultados sugieren que los modelos menos verbosos y con trayectorias más cortas pueden ser más precisos. El estudio también compara el rendimiento y el coste de diferentes modelos, mostrando que algunos modelos de código abierto ofrecen una buena relación calidad-precio.
ITBench-AAmodelos fronteratareas agénticasSREKubernetesIBMArtificial Analysisevaluación de IA
Leer noticia original