29 de marzo de 2026

SlopCodeBench: Evaluación de la degradación de agentes de código en tareas de largo horizonte | Por qué los agentes de programación fallan en tareas iterativas largas | Benchmark de persistencia y calidad para agentes de IA en desarrollo de software

Coding Agentsagentes de programaciónlong-horizon taskstareas de largo horizonteperformance degradationdegradación de rendimientoSlopCodeBench

Abstract

PROBLEMA: Los benchmarks actuales de generación de código se centran en funciones cortas, pero no capturan la degradación del rendimiento que sufren los agentes de IA cuando operan en repositorios reales durante múltiples iteraciones de largo plazo. SOLUCIÓN: Se propone SlopCodeBench, un nuevo benchmark diseñado específicamente para medir cómo los agentes de programación pierden eficacia, introducen errores o entran en bucles infinitos durante tareas persistentes y complejas. METODOLOGÍA: El estudio analiza diversos agentes comerciales y de código abierto sobre tareas que requieren múltiples pasos de edición, refactorización y solución de errores en bases de código extensas. RESULTADOS: Los resultados revelan una correlación directa entre el número de pasos de iteración y la tasa de error acumulativo, identificando que incluso los modelos más capaces fallan sustancialmente después de 10-15 pasos de tarea. RELEVANCIA: Crucial para entender los límites actuales de la autonomía de los agentes y diseñar mejores sistemas de control y corrección en flujos de trabajo de ingeniería de software.

Leer paper original

Volver a Papers IA