OVO-S-Bench: Evaluación del razonamiento espacial en tiempo real para modelos multimodales | Benchmark de inteligencia espacial para video en streaming | Métricas de consistencia espacial dinámica en IA multimodal
Abstract
PROBLEMA: Los benchmarks actuales para Modelos de Lenguaje Multimodal (MLLM) se centran en imágenes estáticas o videos cortos, fallando al evaluar la inteligencia espacial en flujos de datos continuos (streaming). SOLUCIÓN: OVO-S-Bench es un nuevo benchmark jerárquico diseñado específicamente para medir la 'inteligencia espacial en streaming', evaluando la capacidad de la IA para razonar sobre objetos en movimiento y relaciones espaciales cambiantes en tiempo real. METODOLOGÍA: El benchmark propone tareas de seguimiento, profundidad relativa y predicción de colisiones en entornos de video fluido, utilizando una métrica de evaluación basada en la consistencia temporal del razonamiento. RESULTADOS: Los modelos actuales más potentes muestran una degradación significativa cuando deben mantener la conciencia espacial de manera continua en lugar de procesar fotogramas aislados. RELEVANCIA: Crucial para el desarrollo de agentes que operen en tiempo real, como asistentes en gafas de realidad aumentada o sistemas de monitoreo espacial y dinámico.