ProMSA: Agentes de búsqueda multimodales progresivos para VQA basado en conocimiento | Estrategias Iterativas de búsqueda para responder preguntas sobre imágenes | Cómo optimizar la recuperación de información externa en tareas de visión y lenguaje
Abstract
PROBLEMA: El Visual Question Answering (VQA) basado en conocimiento externo suele sufrir de una recuperación de información ruidosa o insuficiente, ya que los modelos no saben qué buscar específicamente. SOLUCIÓN: ProMSA introduce agentes de búsqueda progresiva que refinan sus consultas de búsqueda de forma iterativa basándose en pistas visuales y respuestas parciales. METODOLOGÍA: Utiliza un sistema de múltiples agentes donde un "planificador" descompone la imagen en consultas de texto y un "analista" evalúa si la información recuperada es suficiente. RESULTADOS: Establece un nuevo estado del arte en los benchmarks OK-VQA y A-OKVQA, superando a modelos que solo utilizan recuperación de un solo paso. RELEVANCIA: Mejora la capacidad de los agentes para interactuar con la web y bases de datos externas para explicar o entender el mundo visual con mayor profundidad bibliográfica.