Pulpie: Modelos Pareto-óptimos para la limpieza de la web
Pulpie es una nueva familia de modelos Pareto-óptimos diseñados para extraer el contenido principal de páginas HTML de manera eficiente y rentable. Estos modelos de código abierto, especialmente "pulpie-orange-small", logran una calidad de extracción cercana al estado del arte (SOTA) a una fracción del coste y con mayor velocidad que alternativas como Dripper. Pulpie está construido para optimizar la calidad del preentrenamiento de modelos de lenguaje, abordando el cuello de botella de la extracción de ruido en grandes volúmenes de datos web. Los modelos están disponibles en Hugging Face y se recomiendan para uso en producción debido a su eficiencia y relación calidad-precio.
Pulpiemodelos Pareto-óptimoslimpieza webextracción HTMLmodelos de lenguajeHugging FaceFeyn
Leer noticia original