Explicabilidad de LLMs mediante Cadenas Contrafácticas y Grafos Causales | Cómo auditar la lógica de un modelo de lenguaje usando inferencia causal | Metodología de transparencia para transformadores basada en razonamiento contrafáctico
Abstract
PROBLEMA: Las explicaciones generadas por los LLMs suelen ser meras racionalizaciones post-hoc que no siempre reflejan el proceso causal real que llevó a la predicción. SOLUCIÓN: El estudio introduce un método para formalizar la explicabilidad mediante el uso de Cadenas Contrafácticas vinculadas a Grafos Causales, permitiendo auditar la lógica del modelo paso a paso. METODOLOGÍA: Utilizan la manipulación de variables de entrada y estados intermedios para observar cambios en las respuestas, construyendo un grafo que mapea la dependencia causal de los argumentos generados. RESULTADOS: Identifican discrepancias donde el modelo ofrece una explicación lógicamente coherente pero factualmente desconectada de los pesos de atención que determinaron la respuesta. RELEVANCIA: Este enfoque es vital para aplicaciones críticas (médicas, legales, espaciales) donde entender el 'por qué' real es tan importante como la precisión del resultado.