Code-Space Response Oracles: Políticas multi-agente interpretables generadas mediante código por LLMs
Abstract
DeepMind presenta un enfoque revolucionario para la generación de políticas multi-agente denominado 'Code-Space Response Oracles'. A diferencia de los métodos de RL tradicionales que generan políticas de caja negra, este sistema utiliza LLMs para generar políticas expresadas directamente en código ejecutable. El marco utiliza una estructura de oráculo de respuesta donde cada agente optimiza su estrategia en el 'espacio de código' basándose en las acciones observadas de los demás. Esta metodología no solo mejora drásticamente la interpretabilidad (permitiendo a humanos auditar el comportamiento del agente mediante la lectura del código), sino que también facilita la transferencia de conocimientos entre tareas y la robustez frente a cambios en el entorno. Es especialmente relevante para entornos donde la coordinación y la trazabilidad de la lógica de decisión son críticas.