Pulpie: Modelos Pareto-óptimos para la limpieza web
Pulpie presenta una familia de modelos Pareto-óptimos diseñados para extraer el contenido principal de páginas HTML de manera eficiente. Pulpie Orange Small iguala la calidad de extracción de Dripper, un extractor líder, con solo un tercio de su tamaño y veinte veces menos coste, procesando 13,7 páginas por segundo en una GPU NVIDIA L4. Estos modelos, desarrollados por Feyn, prometen una extracción web de alta calidad a una escala sin precedentes, beneficiando el pre-entrenamiento y la gestión de contextos en modelos de lenguaje. Pulpie aborda el cuello de botella de la extracción en modelos de lenguaje al transformar el enfoque de lectura en un proceso rápido y rentable.
Pulpiemodelos de lenguajelimpieza webextracción de contenidoHugging FaceFeynDripper
Leer noticia original