8 de mayo de 2026

Corrección del Sesgo de Agregación en GRPO mediante Balanced Aggregation | Optimización estable de políticas relativas de grupo en LLMs | Mejora del entrenamiento por refuerzo para modelos de razonamiento avanzado

GRPOGroup Relative Policy OptimizationBalanced AggregationRLHF dinámicosesgo de agregaciónDeepSeek-style RLalineamiento de modelos

Abstract

PROBLEMA: El algoritmo GRPO (utilizado en modelos punteros de razonamiento) presenta un sesgo de agregación cuando las recompensas dentro de un grupo son muy heterogéneas, lo que desestabiliza el aprendizaje. SOLUCIÓN: Proponen 'Balanced Aggregation', una técnica de normalización y ponderación que estabiliza el gradiente de la política al considerar la varianza interna del grupo. METODOLOGÍA: Análisis teórico del sesgo de gradiente seguido de experimentos empíricos en tareas de código y matemáticas utilizando arquitecturas estilo DeepSeek. RESULTADOS: Logran una convergencia un 25% más rápida y un rendimiento final superior en benchmarks competitivos frente al GRPO estándar. RELEVANCIA: Vital para investigadores que implementan RL de grupo para optimizar el razonamiento de LLMs sin la sobrecarga de un modelo crítico separado.

Leer paper original

Volver a Papers IA