9 de marzo de 2026

BandPO: Unificación de Regiones de Confianza y Límites de Probabilidad para RL en LLMs

Reinforcement LearningBandPOTrust RegionsLLM OptimizationRatio Clipping

Abstract

Este artículo introduce BandPO, un nuevo marco de optimización para el aprendizaje por refuerzo en modelos de lenguaje (LLM) que busca unificar las ventajas de los métodos de regiones de confianza (como PPO) y el recorte de proporciones (ratio clipping). El problema central abordado es la inestabilidad del entrenamiento cuando las políticas se desvían demasiado de la política de referencia. BandPO propone límites conscientes de la probabilidad (Probability-Aware Bounds) que ajustan dinámicamente las restricciones de actualización basándose en la incertidumbre y la distribución de los tokens. Experimentalmente, BandPO demuestra superar a PPO y DPO en tareas de alineación y razonamiento lógico, proporcionando una convergencia más estable y una mejor generalización en tareas de recompensa dispersa. El método es particularmente relevante para el entrenamiento de modelos que requieren un control preciso sobre la deriva de la política durante el fine-tuning masivo.

Leer paper original

Volver a Papers IA