Muestreo Truncado a Nivel de Paso con Recompensas de Proceso para Razonamiento RAG Mejorado
Abstract
Este paper presenta una técnica innovadora llamada muestreo truncado a nivel de paso (Truncated Step-Level Sampling) utilizando recompensas de proceso (Process Rewards) para optimizar el razonamiento en sistemas de recuperación aumentada (RAG). A diferencia de los métodos que evalúan la respuesta completa, este enfoque descompone el razonamiento del modelo en pasos discretos y utiliza un modelo de recompensa para evaluar la validez de cada paso lógico y el uso de la información recuperada. El proceso de truncamiento permite detener ramas de razonamiento erróneas de forma temprana, ahorrando recursos computacionales y mejorando la precisión final. El estudio demuestra que esta granularidad en la supervisión permite que modelos más pequeños alcancen una precisión en tareas de razonamiento complejo comparable a modelos mucho más grandes que utilizan muestreo estándar. Se analizan casos de uso en matemáticas y razonamiento científico, donde la precisión de cada paso es crítica para evitar la acumulación de errores de alucinación informativa.