4 de abril de 2026

UniDriveVLA: Unificando percepción y acción en conducción autónoma | Modelo Visión-Lenguaje-Acción para vehículos inteligentes | IA unificada para la planificación de trayectorias en tiempo real

Vision-Language-ActionVLA modelsAutonomous Drivingconducción autónomaAction Planningplanificación de acciónperception and planning

Abstract

PROBLEMA: Los sistemas actuales de conducción autónoma suelen separar la percepción, la comprensión semántica y la planificación en módulos distintos, lo que provoca pérdida de información y rigidez ante escenarios imprevistos. SOLUCIÓN: UniDriveVLA propone una arquitectura única que unifica la comprensión de la escena, la percepción sensorial y la planificación de acciones en un solo modelo tipo VLA (Vision-Language-Action). METODOLOGÍA: Se entrena un modelo transformer multimodal que toma imágenes de cámaras, datos de sensores y comandos en lenguaje natural para generar directamente trayectorias de conducción seguras y coherentes. RESULTADOS: El modelo logra un rendimiento estado del arte en benchmarks de conducción urbana, mostrando una notable capacidad para seguir instrucciones complejas y razonar sobre peligros potenciales. RELEVANCIA: Representa la convergencia entre los modelos de lenguaje a gran escala y la robótica física, crucial para el despliegue de vehículos autónomos más inteligentes.

Leer paper original

Volver a Papers IA