Reasoning Arena: Torneos de trazas para evaluar el razonamiento en LLMs | Comparación cualitativa de procesos de pensamiento en inteligencia artificial | Cómo medir la inteligencia lógica de los modelos más allá de la respuesta final
Abstract
PROBLEMA: Las métricas tradicionales (exactitud final) son insuficientes para evaluar el razonamiento complejo, ya que un modelo puede llegar a la respuesta correcta por el camino equivocado o fallar por un error trivial con una lógica brillante. SOLUCIÓN: Se introduce "Reasoning Arena", un marco de trabajo que utiliza "Torneos de Trazas" donde LLMs jueces comparan el proceso de pensamiento (Chain-of-Thought) de dos modelos en competencia. METODOLOGÍA: El sistema utiliza un ranking Elo basado en la calidad de la traza de razonamiento, penalizando alucinaciones lógicas y premiando la elegancia y robustez del razonamiento, incluso cuando no hay una recompensa binaria (correcto/incorrecto) fácil de verificar. RESULTADOS: Reasoning Arena proporciona una correlación mucho mayor con la preferencia humana que benchmarks estáticos, identificando modelos que "razonan de verdad" frente a los que usan patrones memorizados. RELEVANCIA: Es un paso crítico para el entrenamiento de modelos mediante RLAIF (Reinforcement Learning from AI Feedback) enfocado en la fidelidad del razonamiento interno.