Predicción de Recompensas con Estados de Mundo Factorizados para Modelos de Dinámica Compleja
Abstract
Este trabajo presenta un nuevo método para la predicción de recompensas en agentes de RL utilizando estados del mundo factorizados. En lugar de procesar una representación densa y única del entorno, el modelo descompone el estado del mundo en componentes independientes (objetos, fondos, dinámicas físicas). Al predecir cómo cada factor contribuye a la recompensa final, el agente desarrolla una comprensión mucho más profunda de la causalidad dentro de su entorno. Los resultados muestran una mejora significativa en la eficiencia de muestreo y en la capacidad de transferencia a nuevos entornos (zero-shot transfer). Para aplicaciones de predicción orbital o dinámicas espaciales, este enfoque permitiría aislar variables como la presión de radiación solar o anomalías gravitatorias de forma independiente, mejorando la precisión de los modelos de predicción de colisiones y trayectorias en entornos ruidosos.