OneVL: Razonamiento latente y planificación en un solo paso | Inferencia rápida y explicable para modelos de visión y lenguaje | Optimización de la latencia en agentes autónomos multimodales
Abstract
PROBLEMA: Los modelos de razonamiento actuales suelen requerir múltiples pasos iterativos de computación, lo que introduce latencia y dificulta su aplicación en entornos de tiempo real como la robótica. SOLUCIÓN: OneVL propone un modelo capaz de realizar razonamiento latente y planificación en un solo paso (One-Step), integrando además explicaciones en lenguaje natural para justificar sus acciones. METODOLOGÍA: Se implementa una arquitectura que fusiona representaciones visuales y de texto en un espacio latente optimizado donde la inferencia se realiza de forma directa mediante una sola pasada por la red. RESULTADOS: OneVL alcanza un rendimiento competitivo en benchmarks de navegación y manipulación, reduciendo la latencia de inferencia en un 70% sin sacrificar la interpretabilidad de las decisiones. RELEVANCIA: Es una pieza clave para el despliegue de sistemas agénticos que necesiten reaccionar instantáneamente a estímulos visuales complejos.