15 de abril de 2026

Jerarquía de Instrucciones de Múltiples Niveles en Agentes LLM | Cómo organizar la prioridad de comandos para mejorar la seguridad de la IA | Robustez y control en la ejecución de tareas agénticas complejas ante inyecciones de código o prompts

Instruction Hierarchyjerarquía de instruccionesagent safetyseguridad de agentesprompt engineeringsistemas de control de IArobustness

Abstract

PROBLEMA: Los agentes actuales sufren de vulnerabilidades cuando reciben instrucciones de múltiples niveles (por ejemplo, del desarrollador vs. del usuario final), lo que puede llevar a que el agente ignore restricciones de seguridad ante peticiones persuasivas. SOLUCIÓN: Se propone un marco de "Jerarquía de Instrucciones de Múltiples Niveles" (Many-Tier Instruction Hierarchy) que entrena a los agentes para distinguir y priorizar correctamente las fuentes de los comandos. METODOLOGÍA: Los investigadores definen una ontología de privilegios y utilizan fine-tuning especializado para que el modelo identifique la procedencia de cada token, asegurando que las reglas de alto nivel (seguridad) no sean sobrescritas por instrucciones de bajo nivel (entradas de usuario). RESULTADOS: Demuestran que los agentes bajo este esquema son significativamente más resistentes a ataques de inyección de prompts y mantienen la alineación incluso en flujos de trabajo complejos y largos. RELEVANCIA: Este estudio es esencial para implementar agentes en entornos empresariales donde la gobernanza y el cumplimiento de normas de seguridad son innegociables.

Leer paper original

Volver a Papers IA