Ir al contenido principalSaltar al contenido
Hugging Face Blog

Pulpie: Modelos Pareto-óptimos para la limpieza de la web

Pulpie es una nueva familia de modelos Pareto-óptimos diseñados para extraer contenido principal de páginas HTML, ofreciendo una calidad de extracción similar a la de los modelos de vanguardia, pero con un coste significativamente menor. El modelo más pequeño, `pulpie-orange-small`, logra un rendimiento comparable al de Dripper, un extractor líder, siendo un tercio de su tamaño y 20 veces más rápido en ciertas GPUs, reduciendo drásticamente los costes de limpieza de datos. Esto es crucial para mejorar la calidad del preentrenamiento y la gestión del contexto en modelos de lenguaje, ya que la extracción eficiente de contenido limpio es fundamental para evitar el ruido en los datos de entrenamiento e inferencia.

Pulpiemodelos Pareto-óptimosextracción webHTMLHugging Facelimpieza de datosprocesamiento de lenguaje natural
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono