MaxProof: Escalando pruebas matemáticas con RL y Verificadores Generativos | Mejora del razonamiento lógico mediante búsqueda en tiempo de prueba | Sistema de verificación para resolución de problemas complejos con LLMs
Abstract
PROBLEMA: Los LLMs actuales tienen dificultades para realizar razonamientos matemáticos complejos de múltiples pasos y a menudo generan pasos de prueba que parecen lógicos pero son incorrectos. SOLUCIÓN: Se propone MaxProof, que combina el Aprendizaje por Refuerzo con Verificadores Generativos (GV-RL) y una estrategia de escalado en tiempo de ejecución (test-time scaling) a nivel de población para encontrar soluciones correctas. METODOLOGÍA: El sistema entrena un verificador que puntúa pasos intermedios y utiliza búsqueda en árbol para explorar múltiples rutas de solución, compensando errores individuales mediante consenso. RESULTADOS: MaxProof mejora la precisión en benchmarks matemáticos de nivel competitivo (como MATH) en un 22% respecto a modelos que usan solo Chain-of-Thought (CoT) estándar. RELEVANCIA: Este enfoque es un paso importante hacia sistemas capaces de realizar descubrimientos científicos autónomos y verificación formal de software.