Optimización por Preferencia Directa más allá de los Chatbots
Este artículo explora la aplicación de la Optimización por Preferencia Directa (DPO) en el modelo DharmaOCR para mitigar la degeneración del texto, un problema común en los modelos de lenguaje. A diferencia de su uso habitual en chatbots para alineación, DharmaOCR utiliza DPO para corregir fallos específicos en la extracción de documentos estructurados. La metodología emplea los errores del propio modelo como pares de rechazo de entrenamiento, lo que ha demostrado reducir la degeneración del texto en un promedio del 59,4 % en cinco familias de modelos, sin sacrificar la calidad de extracción.
DPODirect Preference OptimizationDharmaOCRdegeneración de textoOCRmodelos de lenguajeIA
Leer noticia original