12 de junio de 2026

MaxProof: Escalado de demostraciones matemáticas mediante RL y verificadores generativos | Cómo mejorar el razonamiento complejo mediante cómputo en tiempo de inferencia | Sistema de verificación formal para modelos de lenguaje en matemáticas avanzadas

Mathematical Proofdemostración matemáticaGenerative Verifierverificador generativoTest-Time Scalingescalado en tiempo de pruebaReinforcement LearningMaxProof

Abstract

PROBLEMA: Generar demostraciones matemáticas formales es extremadamente difícil para los LLMs debido a la necesidad de precisión absoluta y la falta de datos de entrenamiento de alta calidad para teoremas complejos. SOLUCIÓN: MaxProof introduce un sistema de aprendizaje por refuerzo basado en un "Verificador Generativo" y una técnica de escalado en tiempo de prueba a nivel de población (Population-Level Test-Time Scaling). El sistema genera múltiples caminos de prueba y utiliza el verificador para guiar la búsqueda de la solución correcta. METODOLOGÍA: Se entrenó sobre un corpus extenso de problemas de olimpiadas matemáticas (MATH, GSM8K) y se aplicaron algoritmos de búsqueda para optimizar la selección de respuestas durante la inferencia. RESULTADOS: MaxProof alcanzó un nuevo estado del arte en benchmarks de razonamiento matemático, demostrando que dedicar más cómputo durante la inferencia (test-time) es más efectivo que simplemente aumentar el tamaño del modelo. RELEVANCIA: Define un nuevo estándar para el razonamiento de alta fidelidad, aplicable no solo a matemáticas, sino también a seguridad de código y verificación formal.

Leer paper original

Volver a Papers IA