Análisis del Razonamiento Temporal en LLMs: ¿Tokenización o Representación? | Cómo entienden la cronología los modelos de lenguaje grandes | Investigación sobre la percepción del tiempo en arquitecturas Transformer
Abstract
PROBLEMA: A pesar de su potencia, los LLMs suelen fallar en tareas de razonamiento temporal simple (ej. secuencias de eventos). No se sabía si esto era un fallo de cómo se dividen las palabras (tokenización) o de cómo el modelo entiende conceptualmente el tiempo. SOLUCIÓN: El estudio disecciona qué factores controlan realmente la capacidad temporal en los modelos de lenguaje, comparando la tokenización explícita frente a las representaciones latentes. METODOLOGÍA: Analizan modelos populares bajo distintos esquemas de entrada y miden la activación de neuronas específicas encargadas de 'marcar el tiempo', evaluando si el rendimiento mejora con mejores tokens o con ajustes en el espacio de representación. RESULTADOS: El paper concluye que la representación interna (el 'espacio latente') es más crítica que la tokenización externa, pero que ambos deben estar alineados para evitar fallos de razonamiento lógico sobre fechas y duraciones. RELEVANCIA: Importante para mejorar la veracidad de los modelos RAG cuando se consultan datos históricos o cronogramas complejos.