30 de mayo de 2026

OmniRetrieval: Recuperación Unificada en Fuentes de Conocimiento Heterogéneas | Sistema RAG para integración de texto, tablas y grafos de conocimiento | Cómo optimizar la búsqueda de información en múltiples formatos de datos de forma simultánea

OmniRetrievalheterogeneous knowledge sourcesRAG alignmentunified searchrecuperación híbridafuentes heterogéneassistemas de búsqueda unificada

Abstract

PROBLEMA: Los sistemas RAG actuales suelen estar optimizados para un solo tipo de fuente (normalmente texto no estructurado), fallando cuando el conocimiento necesario está disperso entre tablas, grafos y documentos de texto. SOLUCIÓN: Se propone OmniRetrieval, un modelo de recuperación unificado que proyecta diferentes fuentes de conocimiento (texto, tablas y grafos) en un espacio de embedding compartido de alta fidelidad. METODOLOGÍA: Emplean una arquitectura de codificación cruzada (Cross-modal Encoder) entrenada con una pérdida de contraste adaptativa que alinea las representaciones de fuentes estructuralmente distintas. RESULTADOS: Supera a los retrievers tradicionales en un 15% en benchmarks de conocimiento mixto como WikiTableText, demostrando una capacidad superior para capturar dependencias entre datos relacionales y narrativos. RELEVANCIA: Es un avance crítico para asistentes de IA corporativos que deben consultar manuales, bases de datos SQL y diagramas de flujo simultáneamente para responder consultas complejas.

Leer paper original

Volver a Papers IA