Video-MME-v2: Benchmark avanzado para comprensión integral de video | Cómo evaluar el razonamiento complejo en modelos de video multimodales | Estándar de evaluación para inteligencia artificial en análisis de video de larga duración
Abstract
PROBLEMA: Los benchmarks actuales para la comprensión de video a menudo se limitan a clips cortos o tareas de reconocimiento simples, fallando en evaluar la capacidad de los modelos para razonar sobre dependencias temporales complejas en videos de larga duración. SOLUCIÓN: El paper presenta Video-MME-v2, una versión evolucionada del benchmark original que expande significativamente la diversidad de tareas y la longitud de los videos, introduciendo escenarios de razonamiento de múltiples pasos. METODOLOGÍA: Se recopilaron miles de videos con anotaciones humanas detalladas, cubriendo diversas categorías y duraciones (desde segundos hasta horas), evaluando tanto modelos de código abierto como propietarios. RESULTADOS: Los resultados muestran que incluso los modelos más avanzados (como GPT-4o o Gemini 1.5 Pro) todavía enfrentan dificultades significativas en el razonamiento causal y la síntesis de información de videos extremadamente largos. RELEVANCIA: Es fundamental para el desarrollo de agentes capaces de interactuar con contenido dinámico y temporal en el mundo real.