VLX-Flow: Comprensión continua de vídeo para interacción multimodal en tiempo real
VLX-Flow es un nuevo modelo diseñado para la comprensión continua de vídeo en tiempo real, procesando secuencias de vídeo de forma incremental y actualizando la memoria del modelo para responder a consultas sin reprocesar el historial completo. A diferencia de los modelos de vídeo existentes que asumen un flujo de trabajo fuera de línea, VLX-Flow mantiene un estado visual en evolución, lo que lo hace adecuado para escenarios en dispositivos y en el borde. Emplea una memoria de dos capas (caché visual y memoria semántica) con atención lineal para una latencia estable y un crecimiento de memoria suave, permitiendo una descripción continua del vídeo y una interacción activada por eventos. Este enfoque transforma la comprensión del vídeo de una API basada en solicitudes a un módulo de percepción en ejecución continua, optimizando el ancho de banda, la latencia, la privacidad y el coste computacional.