8 de junio de 2026

La Matriz de Unembedding como Lente de Características para Embeddings de Texto | Cómo interpretar vectores de texto usando la capa de salida del modelo | Técnica de interpretabilidad para modelos de lenguaje basada en proyección de vocabulario

Unembedding Matrixmatriz de salidaFeature Lensinterpretabilityinterpretabilidad de modelosWord Embeddingsrepresentación vectorial

Abstract

PROBLEMA: Los embeddings de texto suelen ser cajas negras vectoriales donde es difícil discernir qué características semánticas específicas están codificadas antes de la generación final. SOLUCIÓN: El paper propone tratar la matriz de Unembedding del modelo como una 'lente de características' (Feature Lens) para proyectar los embeddings de vuelta al espacio del vocabulario, permitiendo una interpretación directa. METODOLOGÍA: Analizan las proyecciones de las capas intermedias mediante la descomposición de la matriz de pesos final y aplican este método en varios modelos de lenguaje de gran escala para validar su consistencia. RESULTADOS: Demuestran que es posible identificar conceptos semánticos y sintácticos de alto nivel dentro de los vectores de activación antes de que se conviertan en logits. RELEVANCIA: Esta técnica es fundamental para entender el razonamiento interno de los LLMs y diagnosticar sesgos o errores en la formación de conceptos durante la inferencia.

Leer paper original

Volver a Papers IA