Ir al contenido principal

CiteVQA: Benchmarking de atribución de evidencia para inteligencia documental confiable | Cómo evaluar si un modelo de IA cita correctamente la fuente en un documento | Herramienta para medir la veracidad y rastreabilidad en sistemas VQA multimodales

Evidence AttributionDocument IntelligenceCiteVQAatribución de fuentesinteligencia documentalveracidad de LLMbenchmark de confianza

Abstract

PROBLEMA: Los modelos actuales de Visual Question Answering (VQA) a menudo proporcionan respuestas correctas pero sin una atribución clara a la evidencia dentro del documento original, lo que limita su utilidad en dominios críticos. SOLUCIÓN: El paper presenta CiteVQA, un nuevo benchmark diseñado específicamente para evaluar la capacidad de los modelos para atribuir evidencia textual y visual de manera precisa durante la respuesta a preguntas sobre documentos. METODOLOGÍA: Se recopilaron miles de pares de preguntas y respuestas que requieren de una búsqueda minuciosa en documentos complejos, obligando al modelo a generar citas de las coordenadas o secciones exactas que justifican su respuesta. RESULTADOS: Las pruebas revelan que incluso los modelos multimodales más avanzados (LMMs) tienen dificultades significativas para mantener la fidelidad de la cita, mostrando una brecha considerable entre la precisión de la respuesta y la precisión de la atribución. RELEVANCIA: Este trabajo es fundamental para el desarrollo de sistemas RAG multimodales donde la verificabilidad es tan importante como la respuesta misma.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h