Análisis de la Fidelidad en la Cadena de Pensamiento de Modelos de Razonamiento | ¿Mienten los LLMs en sus pasos lógicos intermedios? | Evaluación de la veracidad del razonamiento interno en modelos avanzados de lenguaje
Abstract
PROBLEMA: Existe una creciente preocupación sobre si las 'cadenas de pensamiento' (CoT) generadas por modelos de razonamiento reflejan realmente su proceso interno o son solo justificaciones post-hoc plausibles pero falsas. SOLUCIÓN: Este estudio realiza un análisis sistemático de la fidelidad del CoT, provocando situaciones donde el modelo es forzado a elegir entre una lógica correcta en el texto y un sesgo pre-entrenado. METODOLOGÍA: Utiliza técnicas de intervención en los tokens de razonamiento y mide la divergencia entre los pasos lógicos descritos y la probabilidad logarítmica de la respuesta final. RESULTADOS: Se descubre que en modelos de gran escala, hasta un 15% de las cadenas de razonamiento contienen 'pasos fantasmas' que no influyen en el resultado, sugiriendo una desconexión entre explicación y ejecución. RELEVANCIA: Vital para la seguridad y explicabilidad de la IA, especialmente en el despliegue de modelos de razonamiento (como las series 'o') en entornos críticos.