VLX-Flow: Comprensión de vídeo continua para interacción multimodal en tiempo real
VLX-Flow es un nuevo modelo diseñado para la comprensión continua de vídeo en tiempo real, lo que permite la interacción multimodal. A diferencia de los modelos tradicionales que esperan una consulta, VLX-Flow procesa secuencias de vídeo divididas en fragmentos, actualizando continuamente su memoria. Esto posibilita una latencia más estable y un crecimiento de memoria más suave, siendo ideal para dispositivos perimetrales como cámaras y robots. Su sistema de memoria de dos capas, que incluye una caché visual y una memoria semántica, le permite mantener la coherencia narrativa a largo plazo y responder a preguntas en tiempo real.
VLX-Flowcomprensión de vídeotiempo realmultimodalmemoria de modelomodelos de lenguajedispositivos perimetrales
Leer noticia original