Representaciones Visuales Dirigibles mediante Transformaciones Latentes | Cómo controlar y manipular semánticamente los vectores de características visuales | Técnica para navegación precisa y predecible en espacios latentes de visión
Abstract
PROBLEMA: Las representaciones visuales actuales en modelos fundacionales suelen ser estáticas y difíciles de manipular de forma dirigida sin afectar a otras características semánticas no relacionadas (entrelazamiento). SOLUCIÓN: El paper propone un marco de trabajo para representaciones visuales 'dirigibles' (Steerable Visual Representations), que permite realizar transformaciones predecibles en los vectores latentes para reflejar cambios semánticos específicos. METODOLOGÍA: Utilizan una arquitectura basada en transformadores latentes que aprenden a mapear transformaciones del mundo real (como rotación, cambio de escala o alteración de atributos) directamente en el espacio de embedding de forma lineal o cuasi-lineal. RESULTADOS: Demuestran que es posible navegar el espacio latente con alta precisión, superando a métodos tradicionales de interpolación y permitiendo una edición de imágenes más coherente. RELEVANCIA: Esta técnica es fundamental para mejorar la interpretabilidad de los modelos de visión y permitir que agentes autónomos 'entiendan' cómo sus acciones transforman la percepción visual del entorno.