ScarfBench: Evaluación de agentes de IA para la migración de frameworks Java empresariales
ScarfBench (Self-Contained Application Refactoring Benchmark) es un nuevo benchmark abierto creado por IBM Research para evaluar la capacidad de los agentes de IA en la migración de marcos de trabajo de aplicaciones Java empresariales. A diferencia de las evaluaciones tradicionales, ScarfBench comprueba si las aplicaciones migradas realmente se construyen, despliegan y conservan su comportamiento, revelando que los agentes actuales tienen dificultades con la complejidad de la modernización que va más allá de la mera traducción de código. Los resultados iniciales muestran bajas tasas de éxito conductual, destacando desafíos en la gestión de dependencias, configuración y problemas ambientales.
ScarfBenchagentes de IAmigración de frameworksJava empresarialIBM Researchevaluación de IASpringJakarta EEQuarkus
Leer noticia original