4 de marzo de 2026

BeyondSWE: Evaluación de Agentes de IA en la Resolución de Errores Complejos Multi-Repositorio

code agentsBeyondSWEmulti-repo fixingcomplex reasoningsoftware engineering

Abstract

BeyondSWE es un nuevo benchmark diseñado para evaluar los límites de los agentes de codificación actuales, yendo más allá de la simple corrección de errores en un solo repositorio. El artículo argumenta que el verdadero desafío de la IA en la ingeniería de software reside en la interacción entre múltiples repositorios, la comprensión de dependencias cruzadas y la resolución de errores que surgen de la integración de sistemas complejos. Mediante este marco, los autores revelan que incluso los modelos más avanzados (como GPT-4o o Claude 3.5) sufren caídas drásticas de rendimiento cuando se enfrentan a problemas que requieren una navegación extensa por bases de código interconectadas. Este trabajo es fundamental para el diseño de futuros sistemas agénticos que utilicen CoT (Chain of Thought) y herramientas de navegación de código para manejar la complejidad del desarrollo de software a gran escala.

Leer paper original

Volver a Papers IA