HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning | Síntesis de datos para razonamiento visual de múltiples pasos en VLMs | Cómo mejorar la lógica visual en modelos multimodal mediante cadenas de datos sintéticos
Abstract
PROBLEMA: El razonamiento visual que requiere múltiples pasos de inferencia (multi-hop) es una de las mayores debilidades de los modelos visión-lenguaje (VLM) debido a la falta de datos de entrenamiento complejos y curados. SOLUCIÓN: Se presenta HopChain, un marco de síntesis de datos que genera automáticamente cadenas de razonamiento multi-paso vinculadas a elementos visuales, permitiendo una supervisión más rica durante el entrenamiento. METODOLOGÍA: El sistema utiliza grafos de conocimiento y escenas para construir rutas de razonamiento lógicas que el modelo debe seguir para llegar a una respuesta correcta basándose en una imagen. RESULTADOS: Al entrenar con HopChain, los modelos demuestran una generalización superior en benchmarks de razonamiento visual complejo, superando a métodos que dependen solo de datos humanos. RELEVANCIA: Es fundamental para desarrollar agentes que no solo describan imágenes, sino que operen y razonen lógicamente sobre entornos visuales dinámicos.