Optimización de preferencias ante datos ruidosos | Cómo alinear LLMs con feedback imperfecto mediante aprendizaje semisupervisado | Mejora de la robustez en Direct Preference Optimization (DPO)
Abstract
PROBLEMA: El Direct Preference Optimization (DPO) convencional es altamente sensible al ruido en las etiquetas de preferencia (errores humanos o inconsistencias), lo que degrada la calidad del alineamiento del modelo. SOLUCIÓN: Este paper introduce un enfoque semisupervisado que trata las preferencias dudosas como datos no etiquetados, aplicando una pérdida de consistencia para regularizar el aprendizaje. METODOLOGÍA: Implementan un marco de entrenamiento que separa las muestras de alta confianza de las ruidosas y utiliza pseudo-etiquetas refinadas para estas últimas. RESULTADOS: Muestran mejoras consistentes en benchmarks de razonamiento y diálogo, superando al DPO estándar incluso cuando el nivel de ruido en los datos de entrenamiento supera el 20%. RELEVANCIA: Crucial para procesos de fine-tuning donde la obtención de datos perfectos es costosa o imposible.