La Matriz de Unembedding como Lente de Características para Embeddings de Texto | Cómo interpretar vectores de texto usando la capa de salida del modelo | Técnica de interpretabilidad para modelos de lenguaje basada en proyección de vocabulario
Abstract
PROBLEMA: Los embeddings de texto suelen ser cajas negras vectoriales donde es difícil discernir qué características semánticas específicas están codificadas antes de la generación final. SOLUCIÓN: El paper propone tratar la matriz de Unembedding del modelo como una 'lente de características' (Feature Lens) para proyectar los embeddings de vuelta al espacio del vocabulario, permitiendo una interpretación directa. METODOLOGÍA: Analizan las proyecciones de las capas intermedias mediante la descomposición de la matriz de pesos final y aplican este método en varios modelos de lenguaje de gran escala para validar su consistencia. RESULTADOS: Demuestran que es posible identificar conceptos semánticos y sintácticos de alto nivel dentro de los vectores de activación antes de que se conviertan en logits. RELEVANCIA: Esta técnica es fundamental para entender el razonamiento interno de los LLMs y diagnosticar sesgos o errores en la formación de conceptos durante la inferencia.