27 de abril de 2026

Seguridad de LLMs desde el interior mediante representaciones internas | Detección de contenido dañino analizando las activaciones del modelo | Defensa robusta contra jailbreaks basada en estados latentes de la IA

LLM SafetySeguridad de LLMsInternal Representationsrepresentaciones internas del modeloHarmful content detectiondetección de toxicidad IAmodel interpretability

Abstract

PROBLEMA: Los clasificadores externos de seguridad (guardrails) son fáciles de evadir mediante técnicas de jailbreaking o manipulación de prompts, ya que solo ven la salida de texto final. SOLUCIÓN: Los investigadores proponen 'LLM Safety From Within', un método que utiliza un clasificador liviano entrenado sobre las activaciones de las capas ocultas del propio LLM para identificar intenciones dañinas. METODOLOGÍA: Se analizan las representaciones latentes de modelos como Llama-3 y GPT-4 al procesar prompts maliciosos vs. seguros para encontrar subespacios vectoriales asociados con el daño. RESULTADOS: El método detecta intentos de generación dañina con una latencia mínima y una tasa de éxito mucho mayor que los filtros basados en palabras clave o modelos de clasificación externos (BERT/RoBERTa). RELEVANCIA: Proporciona una capa de defensa mucho más robusta y difícil de engañar para empresas que despliegan modelos generativos en producción.

Leer paper original

Volver a Papers IA