Pulpie: Modelos Pareto-óptimos para la limpieza de la web
Pulpie es una nueva familia de modelos Pareto-óptimos diseñados para extraer contenido principal de páginas HTML, ofreciendo una calidad de extracción similar a la de los modelos de vanguardia, pero con un coste significativamente menor. El modelo más pequeño, `pulpie-orange-small`, logra un rendimiento comparable al de Dripper, un extractor líder, siendo un tercio de su tamaño y 20 veces más rápido en ciertas GPUs, reduciendo drásticamente los costes de limpieza de datos. Esto es crucial para mejorar la calidad del preentrenamiento y la gestión del contexto en modelos de lenguaje, ya que la extracción eficiente de contenido limpio es fundamental para evitar el ruido en los datos de entrenamiento e inferencia.
Pulpiemodelos Pareto-óptimosextracción webHTMLHugging Facelimpieza de datosprocesamiento de lenguaje natural
Leer noticia original