Actionable World Representation: Representaciones del mundo centradas en la acción | Cómo entrenar modelos de mundo que entiendan las consecuencias de las acciones | Mejora de la planificación de agentes mediante representaciones latentes accionables
Abstract
PROBLEMA: Muchos modelos de mundo actuales aprenden representaciones pasivas de la realidad que no capturan adecuadamente cómo las acciones específicas de un agente alteran el entorno para predecir estados futuros con precisión. SOLUCIÓN: Se propone 'Actionable World Representation' (AWR), un marco que entrena representaciones latentes centradas específicamente en las posibilidades de acción del agente (affordances), optimizando la predicción del impacto de las intervenciones. METODOLOGÍA: Utilizan un enfoque de auto-supervisión donde el modelo debe reconstruir no solo el estado visual, sino el vector de acción necesario para transicionar entre estados. RESULTADOS: AWR supera a los modelos de mundo tradicionales en tareas de manipulación robótica y navegación compleja, mostrando una transferencia cero-shot superior. RELEVANCIA: Este trabajo es un paso crítico hacia modelos de mundo eficaces para robótica y agentes que operan en entornos físicos impredecibles.