Agregación Equilibrada: Solución al sesgo de agregación en GRPO para LLMs | Cómo estabilizar el entrenamiento por refuerzo en modelos de razonamiento | Técnica para mejorar la convergencia de políticas en optimización de grupos de respuestas
Abstract
PROBLEMA: El algoritmo GRPO (Group Relative Policy Optimization) se ha vuelto popular para entrenar razonamiento en LLMs, pero sufre de un sesgo de agregación inherente que puede desviar el aprendizaje cuando las muestras del grupo tienen varianza alta. SOLUCIÓN: Se introduce 'Balanced Aggregation', una técnica de re-ponderación que normaliza las ventajas relativas dentro de cada grupo de respuestas. METODOLOGÍA: El equipo de OpenMOSS analizó matemáticamente la varianza de los gradientes en GRPO e implementó un factor de corrección adaptativo durante el proceso de fine-tuning. RESULTADOS: La aplicación de Balanced Aggregation eliminó los picos de inestabilidad en el entrenamiento y mejoró el rendimiento en benchmarks de matemáticas y razonamiento lógico en un 15%. RELEVANCIA: Esta mejora técnica es vital para el entrenamiento robusto de modelos de 'pensamiento' similares a los modelos o1 o DeepSeek-R1.