12 de marzo de 2026

Code-Space Response Oracles: Políticas multi-agente interpretables generadas mediante código por LLMs

políticas multi-agenteoráculos de respuestainterpretabilidad de códigoteoría de juegos AIcolaboración agéntica

Abstract

DeepMind presenta un enfoque revolucionario para la generación de políticas multi-agente denominado 'Code-Space Response Oracles'. A diferencia de los métodos de RL tradicionales que generan políticas de caja negra, este sistema utiliza LLMs para generar políticas expresadas directamente en código ejecutable. El marco utiliza una estructura de oráculo de respuesta donde cada agente optimiza su estrategia en el 'espacio de código' basándose en las acciones observadas de los demás. Esta metodología no solo mejora drásticamente la interpretabilidad (permitiendo a humanos auditar el comportamiento del agente mediante la lectura del código), sino que también facilita la transferencia de conocimientos entre tareas y la robustez frente a cambios en el entorno. Es especialmente relevante para entornos donde la coordinación y la trazabilidad de la lógica de decisión son críticas.

Leer paper original

Volver a Papers IA