Superando cuellos de botella en el entrenamiento de RL para modelos de generación de código eficiente
Abstract
Este paper identifica y resuelve los cuellos de botella críticos en el entrenamiento de modelos de código mediante aprendizaje por refuerzo (RL). Históricamente, el uso de RL en código ha sido inestable debido a la alta varianza de las recompensas y la dificultad de los problemas. Los autores proponen un marco de RL robusto que introduce mecanismos de estabilidad durante el gradiente y una selección de datos dinámica que prioriza problemas 'frescos' y desafiantes que están justo en el límite de la capacidad actual del modelo (curriculum learning automático). El enfoque no solo mejora la tasa de éxito en benchmarks de codificación, sino que también reduce el tiempo de convergencia. Es un trabajo fundamental para el desarrollo de agentes de programación autónomos que deben aprender de la retroalimentación de ejecución de manera eficiente y estable.