Ir al contenido principal

VOID: Eliminación Integral de Objetos e Interacciones en Vídeo | Cómo remover elementos y sus efectos físicos en secuencias dinámicas | Sistema avanzado de inpainting temporal para edición realista de vídeo

Video Object Deletioninpainting de vídeocoherencia espacio-temporal平衡borrado de interaccionesdiffusion modelsedición generativaVLA models

Abstract

PROBLEMA: Eliminar un objeto en un vídeo es un reto, pero eliminar la 'interacción' (sombras, reflejos, efectos sobre otros objetos) es significativamente más difícil y los modelos actuales suelen dejar artefactos incoherentes. SOLUCIÓN: Se presenta VOID (Video Object and Interaction Deletion), un modelo y dataset diseñado específicamente para identificar y remover no solo la máscara del objeto, sino todas sus huellas físicas e interaccionales en la escena. METODOLOGÍA: Utilizan un transformador de difusión entrenado en un nuevo dataset de alta fidelidad que contiene pares de vídeos con y sin interacciones complejas, aplicando un mecanismo de atención temporal refinado. RESULTADOS: El modelo supera a los métodos de inpainting de última generación en métricas de fidelidad visual y persistencia temporal, siendo capaz de recrear fondos complejos donde antes había contacto físico. RELEVANCIA: Crucial para la generación de datos sintéticos y para modelos de mundo que requieren simular la ausencia o cambio de elementos en entornos dinámicos.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h