Web2BigTable: Sistema multi-agente para búsqueda y extracción a escala de internet | Cómo optimizar la extracción de datos web con agentes jerárquicos | Arquitectura escalar para recolección de información estructurada mediante LLMs
Abstract
PROBLEMA: La extracción de información estructurada a escala de internet enfrenta desafíos de latencia, costo y la incapacidad de los modelos individuales para navegar sitios web complejos con estructuras profundas. SOLUCIÓN: Se propone Web2BigTable, un sistema jerárquico de dos niveles basado en agentes LLM. El primer nivel se encarga de la navegación y descubrimiento de páginas relevantes, mientras que el segundo nivel se especializa en la extracción precisa de datos desde el contenido HTML crudo. METODOLOGÍA: El marco utiliza una arquitectura de orquestación donde agentes de búsqueda de baja latencia filtran candidatos para que agentes de extracción más potentes procesen los nodos finales. Fue probado en dominios de comercio electrónico y noticias. RESULTADOS: El sistema logra una reducción del 40% en costos de tokens y una mejora del 25% en la exhaustividad de los datos extraídos en comparación con métodos de un solo agente. RELEVANCIA: Es fundamental para construir datasets de entrenamiento para LLMs y sistemas RAG que requieran fuentes de datos dinámicas y actualizadas en tiempo real.