28 de junio de 2026

El horizonte de verificación: Los límites de los modelos de recompensa en agentes de codificación | Por qué los agentes de IA fallan al evaluar su propio código | Análisis crítico de la autoverificación en sistemas agénticos de ingeniería de software

Coding AgentsReward Modelsagentes de programación de IA engineeringmodelos de recompensa de códigobenchmarking de agentes IAsoftware agent verificationlímites de razonamiento en agentes

Abstract

PROBLEMA: Existe la creencia de que mejores modelos de recompensa pueden resolver cualquier tarea de codificación, pero este paper identifica un 'horizonte de verificación' donde las señales de recompensa se vuelven ruidosas e inadecuadas. SOLUCIÓN: Analizan los límites fundamentales del uso de LLMs para verificar su propio código y sugieren que la autocrítica tiene techos de rendimiento que el escalado simple no resuelve. METODOLOGÍA: Evaluaron múltiples modelos de frontera (como Qwen2.5 y sus variantes) en tareas de resolución de bugs e ingeniería de software de nivel profesional, midiendo la correlación entre la confianza del modelo y el éxito real. RESULTADOS: Descubrieron que en tareas de alta complejidad, la veracidad de la recompensa colapsa antes que la capacidad de generación del modelo, creando un cuello de botella infranqueable para los agentes actuales. RELEVANCIA: Este estudio es vital para reorientar el desarrollo de agentes de software hacia arquitecturas que utilicen señales de verificación externas más robustas en lugar de depender solo del razonamiento interno.

Leer paper original

Volver a Papers IA