5 de junio de 2026

OPRD: Destilación de representaciones On-Policy para agentes | Cómo transferir inteligencia de modelos grandes a pequeños en entornos dinámicos | Optimización de la eficiencia de agentes mediante alineación de representaciones en tiempo real

Representation DistillationBase de conocimientodestilación de representacionesOn-Policy Learningaprendizaje on-policyAgent Optimizationoptimización de agentes AIOPRD method

Abstract

PROBLEMA: La destilación de conocimiento tradicional de un modelo "maestro" a uno "alumno" suele fallar en agentes dinámicos porque los datos de entrenamiento (off-policy) no coinciden con las situaciones reales que el agente encuentra durante la ejecución. SOLUCIÓN: Se propone OPRD (On-Policy Representation Distillation), un método que destila las representaciones internas del modelo maestro basándose en las experiencias directas que el alumno está viviendo en tiempo real. METODOLOGÍA: El alumno explora el entorno y, para cada estado visitado, se alinean sus activaciones neuronales con las del maestro, forzando una comprensión conceptual similar pero en un modelo más pequeño. RESULTADOS: Los modelos alumnos entrenados con OPRD retienen el 92% del rendimiento del maestro ocupando un 70% menos de memoria y siendo significativamente más rápidos en la toma de decisiones. RELEVANCIA: Esencial para desplegar agentes inteligentes complejos en dispositivos con hardware limitado (edge computing) o móviles.

Leer paper original

Volver a Papers IA