29 de abril de 2026

BARRED: Entrenamiento Sintético de Guardrails mediante Debate Asimétrico | Creación automatizada de filtros de seguridad para modelos de lenguaje | Cómo entrenar políticas de cumplimiento en LLMs sin datos humanos de supervisión

AI Safetyseguridad de la IAGuardrailsbarandillas de seguridadAsymmetric Debatedebate asimétricoSynthetic Trainingentrenamiento sintético

Abstract

PROBLEMA: Definir y alinear políticas de seguridad personalizadas en LLMs es un proceso costoso que normalmente requiere grandes cantidades de datos anotados por humanos. SOLUCIÓN: El estudio introduce BARRED, un método para generar datos de entrenamiento sintéticos para 'guardrails' específicos mediante una técnica de Debate Asimétrico entre un agente atacante y uno defensor supervisados. METODOLOGÍA: Un modelo genera intentos de violación de política mientras otro intenta defenderla, refinando las fronteras de decisión del guardrail objetivo sin necesidad de etiquetas humanas previas. RESULTADOS: Los guardrails entrenados con BARRED igualan o superan la precisión de filtros entrenados con datos humanos, reduciendo drásticamente el coste y tiempo de despliegue de políticas éticas. RELEVANCIA: Permite a las organizaciones desplegar sistemas de control de seguridad más robustos y específicos con una mínima carga operativa.

Leer paper original

Volver a Papers IA