Destilación de Políticas Co-Evolutiva | Cómo mejorar el entrenamiento de modelos alumnos mediante evolución dinámica | Técnica para optimizar agentes pequeños mediante maestros adaptativos
Abstract
PROBLEMA: La destilación de políticas tradicional suele ser estática, donde un modelo alumno imita a un maestro fijo, lo que limita la capacidad del alumno para superar o adaptarse a cambios dinámicos en el entorno o en el propio rendimiento del maestro. SOLUCIÓN: El paper propone 'Co-Evolving Policy Distillation', un marco donde las estrategias del maestro y el alumno evolucionan simultáneamente, permitiendo que el proceso de enseñanza se ajuste dinámicamente según el progreso real del aprendizaje. METODOLOGÍA: Utilizan algoritmos evolutivos integrados con aprendizaje por refuerzo distribuido para optimizar tanto la selección de datos de entrenamiento como los parámetros de la red de la política. RESULTADOS: Los experimentos demuestran que este enfoque mejora significativamente la eficiencia de la muestra y el rendimiento final del alumno en entornos de control complejos en comparación con la destilación estándar. RELEVANCIA: Es fundamental para crear agentes de IA más ligeros pero potentes, capaces de operar con eficiencia en entornos cambiantes.