MetaphorVU: Benchmark para la comprensión de metáforas en video | Evaluando el razonamiento abstracto y figurativo en modelos multimodales | Hacia una IA que comprenda el significado no literal en contenido audiovisual
Abstract
PROBLEMA: Los modelos actuales de IA en video son excelentes para la descripción literal (qué objetos hay y qué hacen), pero fallan estrepitosamente al interpretar significados metafóricos o abstractos comunes en la comunicación humana. SOLUCIÓN: Introducen MetaphorVU, un nuevo benchmark diseñado específicamente para evaluar la comprensión semántica profunda y el razonamiento metafórico en contextos de video. METODOLOGÍA: El dataset incluye videos con etiquetas de significado figurativo versus literal, desafiando a los modelos a identificar conceptos abstractos representados visualmente mediante analogías. RESULTADOS: Los resultados revelan una brecha masiva entre el rendimiento humano y los modelos SOTA actuales (como GPT-4o o Gemini 1.5), subrayando la falta de modelos de mundo que comprendan la abstracción. RELEVANCIA: Mejorar el razonamiento metafórico es crucial para que los agentes IA entiendan el contexto cultural y social en el que operan los humanos, moviéndose más allá de la simple percepción de píxeles.