7 de junio de 2026

Discrete-WAM: Edición unificada de tokens visión-acción para modelos de mundo | Mejora de la planificación agéntica mediante tokenización discreta de acciones | Marco predictivo para aprendizaje de políticas en robots basados en modelos de mundo

World Modelsmodelos de mundo digitalDiscrete Vision-Action Tokentokens de acción discretosRobot learningWorld-Policy Learningrobótica predictiva

Abstract

PROBLEMA: Los modelos de mundo actuales suelen tener dificultades para integrar de manera eficiente la retroalimentación visual con las secuencias de comandos de acción, lo que genera latencia y errores de predicción en entornos complejos. SOLUCIÓN: Los autores proponen Discrete-WAM, un marco unificado que utiliza la edición de tokens discretos de visión y acción para el aprendizaje de políticas de mundo, permitiendo una manipulación más precisa de las trayectorias predichas. METODOLOGÍA: Implementan un esquema de tokenización que cuantiza tanto la entrada sensorial como las acciones del agente en un espacio latente discreto compartido, facilitando el uso de arquitecturas tipo Transformer para la predicción de secuencias. RESULTADOS: El método demuestra una mejora significativa en la fidelidad de la simulación y en la tasa de éxito de tareas robóticas en comparación con modelos que usan representaciones continuas. RELEVANCIA: Este enfoque es clave para el desarrollo de "modelos de mundo" más robustos que permitan a los robots planificar en espacios latentes antes de actuar.

Leer paper original

Volver a Papers IA