Identificación de cabezales de recuperación no literales mediante puntaje de contribución de logit | Cómo analizan los LLMs la información en su contexto | Técnica de interpretabilidad para entender la atención en modelos de lenguaje grande
Abstract
PROBLEMA: Entender cómo los Transformers deciden qué información recuperar del contexto es complejo, especialmente cuando la relación no es una copia literal de palabras sino una inferencia semántica. SOLUCIÓN: Se introduce el 'Logit-Contribution Scoring', una métrica diseñada para rastrear la influencia exacta de cada cabezal de atención en la predicción final del logit. METODOLOGÍA: Los autores analizan arquitecturas populares de LLMs durante tareas de razonamiento detectando cabezales específicos que no solo copian tokens, sino que transforman conceptos abstractos para la salida. RESULTADOS: Identificaron 'cabezales de recuperación no literales' que son cruciales para el razonamiento razonado y la traducción semántica interna del modelo. RELEVANCIA: Este trabajo permite una mejor auditoría de los procesos internos de los LLMs, ayudando a diagnosticar por qué un modelo 'entiende' o 'falla' en recuperar hechos complejos.