Agentes para el descubrimiento de estrategias de escalado en tiempo de inferencia | Cómo usar LLMs para optimizar el razonamiento de otros modelos | Mejora autónoma de capacidades cognitivas en modelos de lenguaje grande
Abstract
PROBLEMA: Los métodos actuales de escalado en tiempo de inferencia suelen depender de estrategias de búsqueda diseñadas manualmente (como Chain-of-Thought), que pueden no ser óptimas para todas las tareas complejas. SOLUCIÓN: El paper introduce un paradigma de 'LLMs mejorando LLMs' donde un agente de descubrimiento utiliza modelos de lenguaje para encontrar y refinar algoritmos de razonamiento de forma autónoma. METODOLOGÍA: Utilizan un enfoque de búsqueda agéntica en el espacio de programas de pensamiento, permitiendo que el sistema experimente con diferentes estructuras de razonamiento y seleccione las más efectivas basándose en el rendimiento. RESULTADOS: El método logra superar consistentemente a las técnicas de escalado tradicionales en benchmarks de razonamiento matemático y código, demostrando que la IA puede descubrir estrategias de pensamiento que los humanos no han formalizado. RELEVANCIA: Es fundamental para el desarrollo de sistemas de IA que se auto-optimizan y para maximizar el retorno del cómputo invertido durante la inferencia crítica.