Generación Automática de Entornos de RL de Alto Rendimiento mediante Sistemas Agénticos
Abstract
Este trabajo presenta un sistema para la generación automática de entornos de Aprendizaje por Refuerzo (RL) de alto rendimiento. El núcleo de la investigación aborda el 'cuello de botella de la simulación': la dificultad de crear manualmente entornos diversos y complejos para entrenar agentes generalistas. El sistema utiliza una arquitectura agéntica que diseña la lógica, las recompensas y las dinámicas físicas del entorno, optimizándolas para que el entrenamiento sea eficiente. Al integrar modelos de mundo que predicen la dificultad y el valor pedagógico de un entorno, el marco puede sintetizar currículos de entrenamiento que evolucionan junto con el agente. Es un avance clave para el desarrollo de agentes autónomos capaces de operar en una variedad infinita de tareas sin intervención humana en el diseño de los escenarios de entrenamiento.