3 de junio de 2026

Co-entrenamiento de política y modelado de mundo para agentes de lenguaje | Mejora de agentes autónomos mediante aprendizaje conjunto de dinámicas y decisiones | Sinergia entre modelos de mundo y políticas de acción en IA agéntica

language agentsagentes de lenguajeworld modelingco-trainingco-entrenamientopredictive dynamicsagentes autónomos

Abstract

PROBLEMA: Los agentes basados en lenguaje suelen fallar al interactuar con entornos complejos porque sus políticas de decisión no están alineadas con una comprensión realista de las consecuencias de sus actos. SOLUCIÓN: Proponen un marco de co-entrenamiento donde el agente aprende simultáneamente una política de acción y un modelo del mundo que predice el siguiente estado. METODOLOGÍA: El sistema utiliza un ciclo de retroalimentación donde los errores del modelo de mundo informan el refinamiento de la política, y las trayectorias de la política enriquecen el entrenamiento del modelo de mundo. RESULTADOS: Los experimentos en benchmarks de agentes demuestran que el co-entrenamiento mejora drásticamente la tasa de éxito y la robustez frente a cambios en el entorno. RELEVANCIA: Provee una ruta clara para integrar capacidades de "razonamiento sobre el mundo" en LLMs que actúan como agentes autónomos.

Leer paper original

Volver a Papers IA