27 de marzo de 2026

SlopCodeBench: Evaluación de la degradación de agentes de código en tareas de horizonte largo | Por qué los agentes de IA fallan en proyectos de programación extensos | Benchmark para medir la consistencia de agentes de software en múltiples iteraciones

Coding AgentsLong-horizon tasksBenchmarkingagentes de programacióndegradación de rendimientoiteración de softwaresoftware engineering AI

Abstract

PROBLEMA: Los agentes de programación actuales suelen fallar o degradar su calidad cuando se enfrentan a ciclos de desarrollo largos y tareas que requieren múltiples iteraciones persistentes. SOLUCIÓN: Se presenta SlopCodeBench, un benchmark diseñado específicamente para medir cómo los agentes de código pierden coherencia o eficiencia en horizontes temporales extensos. METODOLOGÍA: El estudio evalúa diversos agentes líderes en tareas que exigen corrección de errores, refactorización y adición de funcionalidades sobre el mismo codebase de forma sucesiva. RESULTADOS: Los resultados revelan una caída significativa en la precisión a medida que aumenta la profundidad de la interacción, identificando patrones de 'entropía de código' en la IA. RELEVANCIA: Es crucial para el desarrollo de sistemas agénticos de ingeniería de software que sean verdaderamente autónomos y confiables a largo plazo.

Leer paper original

Volver a Papers IA