estabilizando_rl_con_llms_formulacion_practicas
Abstract
Este trabajo formula y practica métodos para estabilizar el aprendizaje por refuerzo (RL) integrando modelos de lenguaje grandes (LLMs), resolviendo la inestabilidad inherente en entornos de alta dimensionalidad como juegos o robótica. El contexto destaca cómo los LLMs pueden proporcionar prior knowledge para políticas iniciales, reduciendo la varianza en actualizaciones Q-learning. La metodología incluye una formulación matemática de 'LLM-guided exploration' que usa prompts para generar trayectorias hipotéticas, combinada con prácticas como distillation de políticas y off-policy correction. Evaluado en entornos MuJoCo y Atari, logra convergencia 3x más rápida y recompensas 40% superiores comparado con PPO baseline, con un 15% menos de muestras requeridas. La contribución principal es un toolkit open-source con ejemplos plug-and-play, demostrando eficacia en RLHF para alineación. Implicaciones abarcan entrenamiento eficiente de agentes en mundos reales, aunque se señalan limitaciones en la interpretabilidad de las decisiones LLM y el costo computacional de prompts extensos.