Ir al contenido principal

Share More, Search Less: Colaboración en tiempo de pensamiento para LLMs | Optimización del escalado de cómputo en inferencia mediante hilos compartidos | Cómo hacer que los LLMs razonen de forma más eficiente en paralelo

Test-time scalingParallel thinkingrazonamiento colaborativoescalado en inferenciaeficiencia computacionalChain-of-thoughtLLM reasoning

Abstract

PROBLEMA: El escalado del cómputo en tiempo de prueba (test-time scaling) mediante métodos como la búsqueda en árbol o cadenas paralelas suele ser ineficiente debido a la redundancia de cómputo y la falta de comunicación entre las ramas de pensamiento. SOLUCIÓN: El paper propone Share More, Search Less (SMSL), un marco de Pensamiento Paralelo Colaborativo que permite a múltiples hilos de razonamiento compartir información intermedia para podar caminos infructuosos. METODOLOGÍA: Utilizan una arquitectura de intercambio de mensajes entre instancias paralelas del modelo durante la decodificación, permitiendo una "conciencia colectiva" durante la resolución de problemas. RESULTADOS: Logran una mejora sustancial en la precisión en benchmarks de matemáticas y código (como MATH y HumanEval) reduciendo el presupuesto de FLOPs hasta en un 40% en comparación con Best-of-N tradicional. RELEVANCIA: Es fundamental para el despliegue de sistemas de razonamiento avanzado donde el coste de inferencia es el principal cuello de botella.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h