4 de marzo de 2026

Seguridad Agéntica: Aprendiendo Cuándo Actuar o Rechazar en el Uso de Herramientas Multi-Paso

agent safetytool usesafe reasoningrefusal mechanismsmulti-step agents

Abstract

Este paper aborda el problema crítico de la seguridad en agentes autónomos distribuidos que ejecutan acciones en cascada mediante el uso de herramientas. Los autores proponen un marco de aprendizaje que enseña a los modelos no solo 'cómo' actuar, sino 'cuándo' rechazar una instrucción potencialmente peligrosa o incierta durante un razonamiento multi-paso. El modelo, denominado Guarding Agentic Reasoning, utiliza técnicas de post-entrenamiento para identificar llamadas a herramientas que podrían violar políticas de seguridad o causar efectos secundarios impredecibles en entornos dinámicos. Esto es vital para la implementación de modelos de lenguaje que actúan como ejecutores en sistemas operativos o redes corporativas, donde una sola acción errónea puede comprometer la integridad del sistema completo.

Leer paper original

Volver a Papers IA