Extrapolación de LLMs mediante trayectorias Rank-1 en entrenamiento RLVR | Cómo alinear modelos de lenguaje de forma ultra eficiente | Aprendizaje por refuerzo minimalista para razonamiento avanzado
Abstract
PROBLEMA: El aprendizaje por refuerzo con recompensas verificables (RLVR) suele requerir iteraciones masivas de entrenamiento y una gran potencia de cómputo para lograr que el modelo extrapole sus capacidades a nuevas tareas. SOLUCIÓN: El paper propone que no es necesario un entrenamiento exhaustivo, sino que el uso de "Rank-1 Trajectories" (trayectorias de alto impacto) permite una extrapolación efectiva con un esfuerzo computacional mínimo. METODOLOGÍA: Identifican los gradientes de actualización más significativos durante las fases iniciales del RLVR y demuestran que concentrar el aprendizaje en estas dimensiones de "rango 1" es suficiente para alcanzar la convergencia. RESULTADOS: Logran resultados competitivos en benchmarks de razonamiento matemático y lógico reduciendo el tiempo de entrenamiento en un 60% comparado con métodos RLVR estándar. RELEVANCIA: Este enfoque cambia la paradigma de "más datos y más cómputo" hacia una selección inteligente de la trayectoria de aprendizaje en procesos de alineación.