Ganancias temporales y costos espaciales en el fine-tuning de video para MLLMs | Análisis crítico del entrenamiento de modelos de video multimodales | Cómo evitar la pérdida de detalle espacial al entrenar IA en secuencias temporales
Abstract
PROBLEMA: El ajuste fino de modelos multimodales para video suele centrarse en mejorar la comprensión del tiempo (movimiento, secuencia), pero a menudo esto conlleva una degradación inesperada en la capacidad del modelo para reconocer detalles espaciales finos. SOLUCIÓN: Este estudio revisita las métricas de fine-tuning y propone una metodología que equilibra las ganancias temporales sin sacrificar la agudeza espacial de los modelos subyacentes. METODOLOGÍA: Se realizaron experimentos comparativos utilizando diversos métodos de tokenización y arquitecturas, analizando cómo la compresión de frames afecta la representación de objetos individuales. RESULTADOS: Los autores identifican un "costo espacial" inherente en la mayoría de las técnicas actuales y presentan una estrategia de entrenamiento que mitiga esta pérdida mediante la preservación selectiva de tokens de alta fidelidad. RELEVANCIA: Esencial para aplicaciones donde el análisis de video requiere tanto entender "qué pasó" como identificar con precisión "qué objetos están presentes" (ej. vigilancia médica o seguridad espacial).