9 de junio de 2026

SWE-Explore: Benchmarking del razonamiento exploratorio en agentes de software | Evaluación de la navegación de repositorios en agentes IA | Cómo mejorar la localización de errores en agentes de programación autónomos

SWE-Exploreagentes de IA de softwareexploración de repositoriosingeniería de software automatizadabenchmarking de agentesresolución de errores de código

Abstract

PROBLEMA: Los agentes de ingeniería de software (SWE) actuales a menudo fallan no por incapacidad de codificación, sino por una exploración ineficiente de repositorios grandes, lo que les impide localizar el contexto relevante para corregir errores. SOLUCIÓN: El paper presenta SWE-Explore, un benchmark diseñado específicamente para evaluar cómo los agentes navegan y entienden la estructura de archivos de un proyecto antes de intentar una edición. METODOLOGÍA: Los autores proponen métricas de eficiencia de navegación y cobertura de contexto, evaluando modelos populares en entornos de repositorios reales donde el éxito depende de encontrar el "archivo aguja en un pajar". RESULTADOS: Los experimentos demuestran que los agentes actuales tienen una tasa de éxito desproporcionadamente baja cuando el punto de error está a más de 3 niveles de profundidad, revelando una brecha crítica en el razonamiento espacial de directorios. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos que puedan operar en infraestructuras de código de nivel empresarial sin intervención humana constante.

Leer paper original

Volver a Papers IA