Ir al contenido principalSaltar al contenido
Hugging Face Blog

VLX-Flow: Comprensión de vídeo continua para interacción multimodal en tiempo real

VLX-Flow es un nuevo modelo diseñado para la comprensión continua de vídeo en tiempo real, lo que permite la interacción multimodal. A diferencia de los modelos tradicionales que esperan una consulta, VLX-Flow procesa secuencias de vídeo divididas en fragmentos, actualizando continuamente su memoria. Esto posibilita una latencia más estable y un crecimiento de memoria más suave, siendo ideal para dispositivos perimetrales como cámaras y robots. Su sistema de memoria de dos capas, que incluye una caché visual y una memoria semántica, le permite mantener la coherencia narrativa a largo plazo y responder a preguntas en tiempo real.

VLX-Flowcomprensión de vídeotiempo realmultimodalmemoria de modelomodelos de lenguajedispositivos perimetrales
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono