Hugging Face Blog

Optimización por Preferencia Directa más allá de los Chatbots

4 de junio de 2026

Este artículo explora la aplicación de la Optimización por Preferencia Directa (DPO) en el modelo DharmaOCR para mitigar la degeneración del texto, un problema común en los modelos de lenguaje. A diferencia de su uso habitual en chatbots para alineación, DharmaOCR utiliza DPO para corregir fallos específicos en la extracción de documentos estructurados. La metodología emplea los errores del propio modelo como pares de rechazo de entrenamiento, lo que ha demostrado reducir la degeneración del texto en un promedio del 59,4 % en cinco familias de modelos, sin sacrificar la calidad de extracción.

DPODirect Preference OptimizationDharmaOCRdegeneración de textoOCRmodelos de lenguajeIA

Leer noticia original

Volver a Noticias IA

WhatsApp con nuestro agente IAEscríbenos y te atiende nuestro agente IA de WhatsApp. Es una demo real: el mismo que montamos para clientes.Llama y habla con nuestra IA de vozLlámanos al 941 72 25 19 y resuelve tus dudas por teléfono hablando con nuestra IA de voz. Otra demo real, funcionando.