VideoKR: Hacia una comprensión de vídeo basada en conocimiento y razonamiento | Nuevo benchmark para evaluar la inteligencia lógica en modelos de vídeo | Cómo medir el razonamiento profundo en sistemas vision-language
Abstract
PROBLEMA: Los modelos actuales de vídeo destacan en reconocimiento de patrones simples pero fallan en tareas que requieren razonamiento lógico profundo o conocimientos externos del mundo real (ej. explicar un proceso físico complejo). SOLUCIÓN: Presentan VideoKR, un dataset y marco de trabajo diseñado específicamente para empujar los límites del razonamiento intensivo en conocimiento en vídeo. METODOLOGÍA: Crearon un benchmark con miles de vídeos que requieren múltiples pasos de inferencia y la consulta a bases de conocimiento externas para ser respondidos correctamente. RESULTADOS: Los modelos de lenguaje visual (VLM) actuales muestran una caída del 50% en rendimiento comparado con tareas visuales estándar, evidenciando una carencia estructural en el razonamiento multi-paso. RELEVANCIA: Define una nueva frontera para el desarrollo de agentes que deben observar el mundo y comprender el contexto histórico o técnico de lo que ven.