Más Allá de la Longitud: Sinergia de Anchura y Profundidad en Modelos de Recompensa Generativos
Abstract
El artículo propone un cambio de paradigma en el entrenamiento de Modelos de Recompensa (Reward Models - RM), argumentando que escalar simplemente la longitud de las respuestas no es suficiente para mejorar el alineamiento. Introducen un método que sinergiza la 'anchura' (diversidad de perspectivas y razonamientos) y la 'profundidad' (exhaustividad y precisión lógica) del modelo. Al utilizar modelos de recompensa generativos, el sistema puede proporcionar una retroalimentación más granular y explicable durante los procesos de RLHF o Direct Preference Optimization (DPO). Esta técnica permite mitigar el 'hacking de recompensa' donde el modelo busca atajos superficiales para obtener puntuaciones altas, resultando en respuestas que son legítimamente más precisas y mejor razonadas desde una base estructural, no solo estadística.