1 de abril de 2026

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in LLMs | Evaluación de la capacidad de supervisión del razonamiento interno en IA | Benchmark para medir la veracidad y transparencia de las cadenas de pensamiento en modelos grandes

MonitorabilityChain-of-ThoughtBenchmarktransparencia IArazonamiento internosupervisión de modelosMonitorBench

Abstract

PROBLEMA: A medida que los LLMs adoptan razonamientos largos (Chain-of-Thought), se vuelve crítico poder monitorizar si el proceso de pensamiento interno es veraz o si el modelo está 'alucinando' pasos lógicos aunque la respuesta final parezca correcta. SOLUCIÓN: Se presenta MonitorBench, el primer benchmark integral diseñado específicamente para evaluar la 'monitorizabilidad' del razonamiento, midiendo qué tan fácil es detectar fallos lógicos durante la generación. METODOLOGÍA: El benchmark evalúa diversos modelos frente a tareas donde se introducen errores deliberados en la cadena de razonamiento y analiza si las capas internas o los mecanismos de auto-supervisión del modelo pueden identificarlos. RESULTADOS: Los resultados revelan que incluso los modelos más potentes tienen dificultades para detectar sus propios errores de razonamiento interno, subrayando una brecha de seguridad en la IA actual. RELEVANCIA: Es vital para la creación de sistemas RAG confiables y agentes autónomos donde el 'derecho a la explicación' y la veracidad del proceso son requisitos legales o técnicos.

Leer paper original

Volver a Papers IA