Ir al contenido principal

D^2-Monitor: Monitorización dinámica de seguridad para LLMs de difusión | Uso de la vacilación del modelo para detectar contenido inseguro | Seguridad en tiempo real para procesos de generación por difusión de texto

Diffusion LLMs SaludDynamic safety monitoringHesitation routingseguridad de la IAmonitorización dinámicasafety alignmentD2-Monitor

Abstract

PROBLEMA: Los modelos de lenguaje basados en difusión (Diffusion LLMs) presentan retos únicos de seguridad ya que el contenido dañino puede emerger gradualmente durante el proceso de denoisado iterativo. SOLUCIÓN: El estudio introduce D^2-Monitor, un sistema de monitorización dinámica de seguridad que utiliza el concepto de "enrutamiento consciente de la vacilación" para detectar cuándo el modelo está generando contenido potencialmente peligroso. METODOLOGÍA: El monitor analiza la trayectoria de los estados latentes y mide la incertidumbre o "vacilación" del modelo; si se cruza un umbral de riesgo, el proceso se aborta o se redirige. RESULTADOS: Reduce las tasas de falsos negativos en la detección de contenido jailbreak en un 35% en comparación con filtros estáticos post-generación. RELEVANCIA: Es crucial para garantizar la robustez frente a ataques adversarios en la nueva generación de modelos generativos no autoregresivos.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h