Ir al contenido principalSaltar al contenido
Hugging Face

VLX-Flow: Comprensión de vídeo continua para interacción multimodal en tiempo real

VLX-Flow es un nuevo modelo diseñado para la comprensión continua de vídeo en entornos en línea, procesando flujos de vídeo en "chunks" y actualizando la memoria de forma incremental. A diferencia de los sistemas de vídeo tradicionales que esperan una consulta para comenzar a comprender, VLX-Flow permite una interacción en tiempo real y responde preguntas a partir de un estado interno mantenido, en lugar de reprocesar el historial completo del vídeo. Utiliza una memoria de dos capas (caché visual y memoria semántica) y atención lineal para mantener una baja latencia y un crecimiento de memoria suave, siendo ideal para dispositivos perimetrales y entornos en vivo, transformando la comprensión de vídeo de una API basada en solicitudes a un módulo de percepción continuo.

VLX-Flowvídeo continuointeracción multimodaltiempo realOm AI LabHugging Facemodelos de lenguaje
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono