Ir al contenido principal
Hugging Face Blog

Optimización por Preferencia Directa más allá de los Chatbots

Este artículo explora la aplicación de la Optimización por Preferencia Directa (DPO) en el modelo DharmaOCR para mitigar la degeneración del texto, un problema común en los modelos de lenguaje. A diferencia de su uso habitual en chatbots para alineación, DharmaOCR utiliza DPO para corregir fallos específicos en la extracción de documentos estructurados. La metodología emplea los errores del propio modelo como pares de rechazo de entrenamiento, lo que ha demostrado reducir la degeneración del texto en un promedio del 59,4 % en cinco familias de modelos, sin sacrificar la calidad de extracción.

DPODirect Preference OptimizationDharmaOCRdegeneración de textoOCRmodelos de lenguajeIA
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h