OmniRetrieval: Recuperación unificada en fuentes de conocimiento heterogéneas | Sistema unificado para buscar en múltiples bases de datos y formatos | Mejora de RAG mediante recuperación multiformato integrada
Abstract
PROBLEMA: Los sistemas actuales de recuperación suelen estar especializados en un único tipo de fuente de conocimiento, lo que dificulta la creación de sistemas RAG que necesiten consultar documentos, bases de datos relacionales y APIs simultáneamente. SOLUCIÓN: Presentan OmniRetrieval, un modelo unificado capaz de realizar búsquedas coherentes a través de fuentes de conocimiento altamente heterogéneas mediante un espacio de representación común. METODOLOGÍA: Utilizan una arquitectura de codificación compartida entrenada con aprendizaje contrastivo multimodality-aware y una técnica de alineación de esquemas para normalizar diferentes tipos de datos. RESULTADOS: OmniRetrieval supera significativamente a los recuperadores tradicionales en benchmarks que requieren saltos entre diferentes tipos de fuentes (textual, semi-estructurada y tabular). RELEVANCIA: Es un avance crítico para asistentes de IA empresariales que deben interactuar con ecosistemas de datos complejos y diversos.