29 de abril de 2026

TCOD: Currículo Temporal para Destilación de Agentes Multi-turno | Cómo mejorar la autonomía de largo plazo en modelos pequeños mediante destilación temporal | Optimización de agentes autónomos para interacciones secuenciales persistentes

On-Policy Distillationdestilación on-policyTemporal Curriculumcurrículo temporalAutonomous Agentsagentes autónomosMulti-turn taskstareas multi-turno

Abstract

PROBLEMA: Los métodos de destilación de modelos tradicionales no consideran la naturaleza secuencial y temporal de las tareas de los agentes, lo que degrada el rendimiento en interacciones largas de múltiples turnos. SOLUCIÓN: TCOD explora el uso de un currículo temporal en la destilación 'on-policy', ajustando gradualmente la dificultad y la dependencia temporal de las tareas que el modelo estudiante debe aprender. METODOLOGÍA: El proceso aumenta progresivamente el número de turnos de interacción y la complejidad de las dependencias entre acciones pasadas y futuras durante la destilación del modelo maestro al estudiante. RESULTADOS: Los agentes destilados con TCOD muestran una coherencia mucho mayor en trayectorias largas y una tasa de éxito superior en entornos dinámicos en comparación con la destilación estándar. RELEVANCIA: Optimiza el tamaño de los modelos necesarios para ejecutar agentes complejos sin perder la capacidad de razonamiento a largo plazo.

Leer paper original

Volver a Papers IA