El horizonte de verificación: Los límites de los modelos de recompensa en agentes de codificación | Por qué los agentes de IA fallan al evaluar su propio código | Análisis crítico de la autoverificación en sistemas agénticos de ingeniería de software
Abstract
PROBLEMA: Existe la creencia de que mejores modelos de recompensa pueden resolver cualquier tarea de codificación, pero este paper identifica un 'horizonte de verificación' donde las señales de recompensa se vuelven ruidosas e inadecuadas. SOLUCIÓN: Analizan los límites fundamentales del uso de LLMs para verificar su propio código y sugieren que la autocrítica tiene techos de rendimiento que el escalado simple no resuelve. METODOLOGÍA: Evaluaron múltiples modelos de frontera (como Qwen2.5 y sus variantes) en tareas de resolución de bugs e ingeniería de software de nivel profesional, midiendo la correlación entre la confianza del modelo y el éxito real. RESULTADOS: Descubrieron que en tareas de alta complejidad, la veracidad de la recompensa colapsa antes que la capacidad de generación del modelo, creando un cuello de botella infranqueable para los agentes actuales. RELEVANCIA: Este estudio es vital para reorientar el desarrollo de agentes de software hacia arquitecturas que utilicen señales de verificación externas más robustas en lugar de depender solo del razonamiento interno.