Hugging Face

VLX-Flow: Comprensión de vídeo continua para interacción multimodal en tiempo real

28 de junio de 2026

VLX-Flow es un nuevo modelo diseñado para la comprensión continua de vídeo en entornos en línea, procesando flujos de vídeo en "chunks" y actualizando la memoria de forma incremental. A diferencia de los sistemas de vídeo tradicionales que esperan una consulta para comenzar a comprender, VLX-Flow permite una interacción en tiempo real y responde preguntas a partir de un estado interno mantenido, en lugar de reprocesar el historial completo del vídeo. Utiliza una memoria de dos capas (caché visual y memoria semántica) y atención lineal para mantener una baja latencia y un crecimiento de memoria suave, siendo ideal para dispositivos perimetrales y entornos en vivo, transformando la comprensión de vídeo de una API basada en solicitudes a un módulo de percepción continuo.

VLX-Flowvídeo continuointeracción multimodaltiempo realOm AI LabHugging Facemodelos de lenguaje

Leer noticia original

Volver a Noticias IA