Learning from the Self-future: On-policy Self-distillation for dLLMs | Autodestilación on-policy basada en predicciones futuras del propio modelo | Optimización iterativa de LLMs sin supervisión externa adicional
Abstract
PROBLEMA: El entrenamiento offline de LLMs sufre de un sesgo de distribución entre los datos de entrenamiento y la generación real en tiempo de ejecución, lo que lleva a la acumulación de errores. SOLUCIÓN: Los investigadores proponen 'Learning from the Self-future', un método de autodestilación on-policy donde el modelo genera múltiples trayectorias y utiliza las más exitosas de su propio 'futuro' simulado para refinarse. METODOLOGÍA: Implementan un ciclo de optimización donde el modelo actúa como su propio maestro, filtrando salidas de alta calidad mediante un mecanismo de recompensa intrínseca para ajustar sus pesos actuales. RESULTADOS: Se observa una mejora consistente en la coherencia de textos largos y rasonamiento lógico, reduciendo significativamente la divergencia de la política del modelo respecto a soluciones ideales. RELEVANCIA: Esta técnica permite una mejora continua del modelo sin necesidad de nuevos datos etiquetados por humanos, siendo ideal para sistemas de aprendizaje autónomo.