4 de junio de 2026

OVO-S-Bench: Evaluación del razonamiento espacial en tiempo real para modelos multimodales | Benchmark de inteligencia espacial para video en streaming | Métricas de consistencia espacial dinámica en IA multimodal

Spatial IntelligenceMultimodal LLM BenchmarkStreaming Intelligenceinteligencia espacial IAevaluación de video en tiempo realpercepción dinámica de IAOVO-S-Bench

Abstract

PROBLEMA: Los benchmarks actuales para Modelos de Lenguaje Multimodal (MLLM) se centran en imágenes estáticas o videos cortos, fallando al evaluar la inteligencia espacial en flujos de datos continuos (streaming). SOLUCIÓN: OVO-S-Bench es un nuevo benchmark jerárquico diseñado específicamente para medir la 'inteligencia espacial en streaming', evaluando la capacidad de la IA para razonar sobre objetos en movimiento y relaciones espaciales cambiantes en tiempo real. METODOLOGÍA: El benchmark propone tareas de seguimiento, profundidad relativa y predicción de colisiones en entornos de video fluido, utilizando una métrica de evaluación basada en la consistencia temporal del razonamiento. RESULTADOS: Los modelos actuales más potentes muestran una degradación significativa cuando deben mantener la conciencia espacial de manera continua en lugar de procesar fotogramas aislados. RELEVANCIA: Crucial para el desarrollo de agentes que operen en tiempo real, como asistentes en gafas de realidad aumentada o sistemas de monitoreo espacial y dinámico.

Leer paper original

Volver a Papers IA